Python で正規表現を使ってホスト・ドメイン名を抽出する

published:

Python で正規表現を使って、 URL から、ホスト・ドメイン名に当たる部分を抽出したい。

re モジュールをインポートして正規表現操作

正規表現を使うために re モジュールをインポートする。

次の例では、re モジュールの search() メソッドを使用して、ホスト・ドメイン名に当たる部分を抽出している。
ただし、例えば、スキームが http もしくは https の場合に限るなど、あらゆる URL に対応しているわけではない。

import re
url = 'http://example.com/hoge/huga'
result = re.search('(?:https?://)?(?P<host>.*?)(?:[:#?/@]|$)', url)
print(result.group('host'))

Previous Article

Next Article