簡體   English   中英

urllib2.urlopen無法獲取所有內容

[英]urllib2.urlopen not getting all content

我是python的初學者,是從reddit.com提取一些數據。更准確地說,我正在嘗試向http:www.reddit.com/r/nba/.json發送請求,以獲取頁面的JSON內容,然后進行解析有關特定團隊或球員的條目。

為了自動化數據收集,我需要這樣的頁面:

import urllib2
FH = urllib2.urlopen("http://www.reddit.com/r/nba/.json")
rnba = FH.readlines()
rnba = str(rnba[0]) 
FH.close()

我還要在腳本副本中提取這樣的內容,以確保:

FH = requests.get("http://www.reddit.com/r/nba/.json",timeout=10)

rnba_json = FH.json()   
FH.close()

但是,當我使用任何一種方法手動訪問http://www.reddit.com/r/nba/.json時,尤其是當我調用時,都無法獲得顯示的完整數據。

print len(rnba_json['data']['children']) # prints 20-something child stories

但是當我做同樣的事情時,像這樣加載復制粘貼的JSON字符串:

import json
import urllib2
fh = r"""{"kind": "Listing", "data": {"modhash": ..."""# long JSON string 
r_nba = json.loads(fh)      #loads the json string from the site into json object
print len(r_nba['data']['children'])        #prints upwards of 100 stories

我得到了更多的故事鏈接。 我知道超時參數,但是提供它並不能解決任何問題。

在瀏覽器中拉頁面時,我在做什么錯或者該怎么做才能顯示所有內容?

要獲得允許的最大值,您可以使用以下API: http//www.reddit.com/r/nba/.json?limit = 100

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM