簡體   English   中英

抓取Google新聞頭條

[英]scraping google news headlines

可通過關鍵字搜索Google新聞,然后將搜索范圍縮小到特定時間段。

我嘗試在網站上進行搜索,然后使用結果頁的網址對python中的搜索進行反向工程,因此:

import urllib2


url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'

handler = urllib2.urlopen(url)
html = handler.read()

但是,我收到403錯誤。 此方法可用於其他網站,例如bbc.co.uk。 因此,顯然Google不想讓我用python抓取該網站。

所以我有兩個問題:1)是否可以繞過Google設置的限制? 如果是這樣,怎么辦? 2)是否有其他可抓取的新聞網站,我可以在給定時間段內搜索有關關鍵字的新聞。

對於這兩種選擇,我都不介意使用付費服務。 因此也歡迎此類建議。

預先感謝,K。

嘗試設置User-Agent

req = urllib2.Request(path)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
response = urllib2.urlopen(req)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM