[英]Extract URL from lines with specific TLD ReGex
大家好,我正在嘗試從具有“.eu”特定結尾的文件中提取 URL,例如.com。
我有這段代碼來獲取 URL 列表,但沒有特定的結尾。 任何人都可以改進它以最終獲得特定的 TLD 嗎?
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line).
行和預期結果的示例。
akijsdijas adsfaasd asfda https://www.google.eu/asd34a/as3df asdfs dsf76
a56 64ijas adsfaasd asfda https://www.facebook.eu/asd34a/as3df asdfs345 dsf76
fghddijas adsfaasd asfda https://www.facebook.com/asd34a/as3df asdfs dsf76
預期成績:
您可以使用
re.findall(r'https?://\S*?\.eu\b', line)
請參閱正則表達式演示。
正則表達式匹配:
https?://
- http://
或https://
\S*?
- 任何 0+ 個非空白字符,盡可能少\.eu\b
- .eu
后跟非單詞字符或字符串結尾。嘗試這個
urls = re.findall(r'https?://\S*\.eu\b')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.