Python で正規表現を使ってホスト・ドメイン名を抽出する
published:
Python で正規表現を使って、 URL から、ホスト・ドメイン名に当たる部分を抽出したい。
re モジュールをインポートして正規表現操作
正規表現を使うために re モジュールをインポートする。
例
次の例では、re モジュールの search() メソッドを使用して、ホスト・ドメイン名に当たる部分を抽出している。
ただし、例えば、スキームが http もしくは https の場合に限るなど、あらゆる URL に対応しているわけではない。
import re
url = 'http://example.com/hoge/huga'
result = re.search('(?:https?://)?(?P<host>.*?)(?:[:#?/@]|$)', url)
print(result.group('host'))