[英]Scrape Google with Python - What is the correct URL for requests.get?
[英]Python: What is returned when I use requests.get('url') and print r.text?
我正在嘗試抓取此網頁 。 此代碼有效:
import requests
header = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0',
}
r = requests.get('http://www.machinefinder.com/ww/en-US/categories/used-drawn-planters', headers=header)
print r.text
但是我不確定它返回的文本到底是什么。 我希望它是JSON,以便我可以復制發現解析JSON的其他示例。
注意:我的工作安全性會阻止該網頁,並在我使用時顯示“非法Web瀏覽器”
header={
'Content-Type': 'application/json;charset=UTF-8',
}
這就是為什么我改用Firefox的原因。
你不能得到一個任意網站返回一個JSON
格式的數據,除非它提供了一個WWAY要求(並取回..)一個JSON
格式的數據。
r.text
通常將保留網站的源代碼,除非再次明確指出,它特別返回了JSON
數據。
因此,您將不得不訴諸其他方法來解析網站,例如BeautifulSoup。
>>>>type(r.text)
<type 'unicode'>
看起來是該頁面的html。 您可以使用美麗湯來解析它: https : //www.crummy.com/software/BeautifulSoup/bs3/documentation.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.