[英]scraping google news headlines
可通過關鍵字搜索Google新聞,然后將搜索范圍縮小到特定時間段。
我嘗試在網站上進行搜索,然后使用結果頁的網址對python中的搜索進行反向工程,因此:
import urllib2
url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'
handler = urllib2.urlopen(url)
html = handler.read()
但是,我收到403錯誤。 此方法可用於其他網站,例如bbc.co.uk。 因此,顯然Google不想讓我用python抓取該網站。
所以我有兩個問題:1)是否可以繞過Google設置的限制? 如果是這樣,怎么辦? 2)是否有其他可抓取的新聞網站,我可以在給定時間段內搜索有關關鍵字的新聞。
對於這兩種選擇,我都不介意使用付費服務。 因此也歡迎此類建議。
預先感謝,K。
嘗試設置User-Agent
req = urllib2.Request(path)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
response = urllib2.urlopen(req)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.