簡體   English   中英

如何從多個網頁中提取內容?

[英]How to extract content from multiple webpages?

我想從各個評論網站中提取某些內容(評論信息)。

首先。 我開始只用一個網頁提取內容。 我能夠毫無問題地實現它。 我編寫了一個python代碼以實現相同的目的。 但是我不知道如何使用相同的python模塊從多個網站中提取。

我最初使用以下代碼來提取網站的評論:

from webscraping import download, xpath
D = download.Download()
# download and cache the Google Code webpage
html = D.get('http://code.google.com/p/webscraping')
# use xpath to extract the project title
project_title = xpath.get(html, '//div[@id="pname"]/a/span')

這里“html”是包含網頁HTML內容的變量。

我想更廣泛地擴展這個解決方案,以便我可以從任何網站提取評論。

我怎樣才能實現這一目標?

請注意:我不想使用網絡抓取工具。 但是我希望以編程方式使用python實現相同的功能。

提前致謝。

這樣的事情應該完成工作。

from bs4 import BeautifulSoup
import urllib.request

for numb in ('1', '10'):
    resp = urllib.request.urlopen("https://realfood.tesco.com/search.html?DietaryOption=Vegetarian")
    soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

    for link in soup.find_all('a', href=True):
        print(link['href'])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM