从大型文本文件中打印多个网址

Question

我正在尝试使用正则表达式从一个大文本文件中查找并打印所有.com网址。 由于大约有40个不同的网址，我想知道是否有一种方法可以搜索它们而不用一个一个地进行搜索。

我使用的代码为xxxx.com，但开头缺少https //：www。 谁能告诉我我如何得到全部结果？ 先感谢您！

import re 
url = len(".com") 
re = re.compile(r'\w*.com\b', url) 
for line in open("report.txt"): 
    for url in re.findall(line): 
        print url

Answer 1

这似乎可行：

#!/usr/local/cpython-2.7/bin/python

import re

def main():
    regex = re.compile(r'https?://[^ \t]*.com\b', re.MULTILINE | re.DOTALL)

    with open('logs.txt', 'r') as file_:
        text = file_.read()

    for url in regex.findall(text):
        print(url)

main()

高温超导

Answer 2

#!/usr/bin/python

import urllib
import urlparse
import re
import requests

#
# A class for dealing with links 
#

class linkGrabber:

  linkregex = re.compile('<a\s*href=[\'|"](.*?)[\'"].*?>')

  #
  # Remove White space and hash tags 
  #

  def clean(self,link):
    link = re.sub(' ','',link)
    link = re.sub("#",'',link)
    return link

def depth(self,link):  
    return len(urlparse.urlparse(url).path.split("/")) -1

  def isAbsolute(self,link):
    return len(urlparse.urlparse(link).netloc) > 0

  def isRelative(self,link):
    return len(urlparse.urlparse(link).netloc) < 1

  def grab(self,markup,*args):
    links = self.linkregex.findall(markup)
    relative = []
    absolute = []
    for this in links:
      #this = urlparse.urlparse(this)
      if self.isAbsolute(this) == True:
        absolute.append(this)
      elif  self.isAbsolute(this) == False:
        relative.append(this)
    if len(args) <=0:
      return relative + absolute
    elif "abs" in args:
      return absolute
    else:
      return relative

从大型文本文件中打印多个网址

问题描述

2 个解决方案

解决方案1
0 2014-04-17 00:23:16

解决方案2
0 2014-04-17 07:47:59

从大型文本文件中打印多个网址

问题描述

2 个解决方案

解决方案1 0 2014-04-17 00:23:16

解决方案2 0 2014-04-17 07:47:59

解决方案1
0 2014-04-17 00:23:16

解决方案2
0 2014-04-17 07:47:59