Python Web抓取-仅打印部分网址

Question

我有一个Python网络抓取程序，该程序从给定站点获取所有链接，并且在此之后我设法打印出每个链接和路径的域名。

编码：

import urllib
import re
import mechanize
from bs4 import BeautifulSoup
import urlparse
import cookielib

url = "http://www.sparkbrowser.com"

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.set_handle_redirect(True)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
page = br.open(url, timeout=5)

htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)


for link in br.links(text_regex=re.compile('^((?!IMG).)*$')):
    newurl = urlparse.urljoin(link.base_url, link.url)
    base = link.base_url
    print base," - ",newurl

它给我这样的结果：

http://www.sparkbrowser.com  -  http://www.sparkbrowser.com
http://www.sparkbrowser.com  -  http://sparkbrowser.com
http://www.sparkbrowser.com  -  http://www.sparkbrowser.com/index.php
http://www.sparkbrowser.com  -  http://www.sparkbrowser.com/download.php
http://www.sparkbrowser.com  -  http://www.sparkbrowser.com/about.php
http://www.sparkbrowser.com  -  http://www.sparkbrowser.com/features.php
http://www.sparkbrowser.com  -  http://www.sparkbrowser.com/spark.php

etc....

我想知道如何sparkbrowser给定地址获取sparkbrowser.com或sparkbrowser ？

我知道如何分隔域名http://www.sparkbrowser.com和路径，但是我不知道是否可以打印出我提到的部分URL

我已经用Regex尝试了一些东西，但是没有成功。

欢迎任何帮助。

Answer 1

使用urlparse.urlsplit()函数将URL分成几个组成部分：

>>> from urlparse import urlsplit
>>> urlsplit('http://www.sparkbrowser.com/index.php')
SplitResult(scheme='http', netloc='www.sparkbrowser.com', path='/index.php', query='', fragment='')
>>> _.netloc
'www.sparkbrowser.com'

然后，可以根据需要进一步拆分.netloc值：

>>> '.'.join(res.netloc.split('.')[-2:])
'sparkbrowser.com'

或者（更好），使用publicsuffix库提取给定域名的公共后缀：

>>> from publicsuffix import PublicSuffixList
>>> psl = PublicSuffixList()
>>> psl.get_public_suffix(res.netloc)
'sparkbrowser.com'
>>> psl.get_public_suffix('www.example.domain.co.uk')
'domain.co.uk'

Answer 2

newurl.split（'。com'）[1]应该可以解决问题。

Python Web抓取-仅打印部分网址

问题描述

2 个解决方案

解决方案1
0 已采纳 2013-08-12 15:19:04

解决方案2
0 2013-08-12 15:23:33

Python Web抓取-仅打印部分网址

问题描述

2 个解决方案

解决方案1 0 已采纳 2013-08-12 15:19:04

解决方案2 0 2013-08-12 15:23:33

解决方案1
0 已采纳 2013-08-12 15:19:04

解决方案2
0 2013-08-12 15:23:33