用於提取URL的Python正則表達式

Question

我正在研究正則表達式，並想知道如何從HTML頁面中提取URL。 我想從這一行打印出網址：

Website is: http://www.somesite.com

每次找到鏈接時，我想提取**Website is:**之后的網址是什么**Website is:**任何幫助將不勝感激。

Answer 1

這是否足夠或者您需要更具體嗎？

In [230]: s = 'Website is: http://www.somesite.com '
In [231]: re.findall('Website is:\s+(\S+)', s)
Out[231]: ['http://www.somesite.com']

Answer 2

您可以將每一行與正常表達式與捕獲組匹配，如下所示：

for l in page:
    m = re.match("Website is: (.*)")
    if m:
        print m.groups()[0]

這將檢查每一行是否與模式匹配，並從中提取鏈接。

一些陷阱：

這假定“網站是”表達始終在行的開頭。 如果不是，您可以使用re.search 。
假設冒號和網站之間只有一個空格。 如果不是這樣，您可以將表達式更改為Website is:\\s+(http.*) 。

具體細節取決於您嘗試解析的頁面。

Answer 3

由於它很簡單，因此正則表達式可能有點過分。

def main():
    urls = []
    file = prepare_file("<yourfile>.html")
    for i in file:
         if "www" in i or "http://" in i:
             urls.append(i)
    return urls


def prepare_file(filename):
    file = open(filename)
    a = file.readlines() #splits on new lines
    a = [ i.strip() for i in [ x for x in a ] ] #remove white space
    a = filter(lambda x : x != '', a) #remove empty elements
    return a

Answer 4

根據我所讀到的，使用正則表達式捕獲URL很難

可能使用以下正則表達式模式對您有好處：

pat = 'Website is: (%s)' % fireball

火球是一種捕捉您在此處可以找到的URL的模式：

daringfireball.net/2010/07/improved_regex_for_matching_urls

用於提取URL的Python正則表達式

問題描述

4 個解決方案

解決方案1
2 已采納 2013-02-18 16:39:57

解決方案2
0 2013-02-18 16:40:09

解決方案3
0 2013-02-18 16:42:40

解決方案4
0 2013-02-18 16:50:43

用於提取URL的Python正則表達式

問題描述

4 個解決方案

解決方案1 2 已采納 2013-02-18 16:39:57

解決方案2 0 2013-02-18 16:40:09

解決方案3 0 2013-02-18 16:42:40

解決方案4 0 2013-02-18 16:50:43

解決方案1
2 已采納 2013-02-18 16:39:57

解決方案2
0 2013-02-18 16:40:09

解決方案3
0 2013-02-18 16:42:40

解決方案4
0 2013-02-18 16:50:43