從具有特定 TLD 正則表達式的行中提取 URL

Question

大家好，我正在嘗試從具有“.eu”特定結尾的文件中提取 URL，例如.com。

我有這段代碼來獲取 URL 列表，但沒有特定的結尾。 任何人都可以改進它以最終獲得特定的 TLD 嗎？

urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line).

行和預期結果的示例。

akijsdijas adsfaasd asfda https://www.google.eu/asd34a/as3df asdfs dsf76

a56 64ijas adsfaasd asfda https://www.facebook.eu/asd34a/as3df asdfs345 dsf76

fghddijas adsfaasd asfda https://www.facebook.com/asd34a/as3df asdfs dsf76

預期成績：

https://www.google.eu

Answer 1

您可以使用

re.findall(r'https?://\S*?\.eu\b', line)

正則表達式匹配：

Answer 2

嘗試這個

urls = re.findall(r'https?://\S*\.eu\b')