[英]How to extract content from multiple webpages?
我想從各個評論網站中提取某些內容(評論信息)。
首先。 我開始只用一個網頁提取內容。 我能夠毫無問題地實現它。 我編寫了一個python代碼以實現相同的目的。 但是我不知道如何使用相同的python模塊從多個網站中提取。
我最初使用以下代碼來提取網站的評論:
from webscraping import download, xpath
D = download.Download()
# download and cache the Google Code webpage
html = D.get('http://code.google.com/p/webscraping')
# use xpath to extract the project title
project_title = xpath.get(html, '//div[@id="pname"]/a/span')
這里“html”是包含網頁HTML內容的變量。
我想更廣泛地擴展這個解決方案,以便我可以從任何網站提取評論。
我怎樣才能實現這一目標?
請注意:我不想使用網絡抓取工具。 但是我希望以編程方式使用python實現相同的功能。
提前致謝。
這樣的事情應該完成工作。
from bs4 import BeautifulSoup
import urllib.request
for numb in ('1', '10'):
resp = urllib.request.urlopen("https://realfood.tesco.com/search.html?DietaryOption=Vegetarian")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
print(link['href'])
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.