使用Beautifulsoup刮取網頁的URL

Question

我可以把頁面刮到頭條新聞，沒問題。 URL是另一個故事。 它們是附加在基本URL末尾的片段 - 我理解......我需要以格式提取相關的存儲URL - base_url.scraped_fragment

from urllib2 import urlopen
import requests
from bs4 import BeautifulSoup
import csv
import MySQLdb
import re


html = urlopen("http://advances.sciencemag.org/")
soup = BeautifulSoup(html.read().decode('utf-8'),"lxml")
#links = soup.findAll("a","href")
headlines = soup.findAll("div", "highwire-cite-title media__headline__title")
    for headline in headlines:
    text = (headline.get_text())
    print text

Answer 1

首先，類名之間應該有一個空格：

highwire-cite-title media__headline__title
               HERE^

無論如何，既然你需要鏈接，你應該找到a元素並使用urljoin()來創建絕對URL：

from urlparse import urljoin

import requests
from bs4 import BeautifulSoup


base_url = "http://advances.sciencemag.org"
response = requests.get(base_url)
soup = BeautifulSoup(response.content, "lxml")

headlines = soup.find_all(class_="highwire-cite-linked-title")
for headline in headlines:
    print(urljoin(base_url, headline["href"]))

打印：

http://advances.sciencemag.org/content/2/4/e1600069
http://advances.sciencemag.org/content/2/4/e1501914
http://advances.sciencemag.org/content/2/4/e1501737
...
http://advances.sciencemag.org/content/2/2
http://advances.sciencemag.org/content/2/1

使用Beautifulsoup刮取網頁的URL

問題描述

1 個解決方案

解決方案1
0 已采納 2016-04-22 18:34:40

使用Beautifulsoup刮取網頁的URL

問題描述

1 個解決方案

解決方案1 0 已采納 2016-04-22 18:34:40

解決方案1
0 已采納 2016-04-22 18:34:40