簡體   English   中英

使用Pandas從網上獲取數據時出現兩個錯誤(IncompleteRead和urlopen錯誤)

[英]Two errors fetching data from the web with Pandas (IncompleteRead & urlopen error)

我嘗試使用Jupyter Notebook中的Pandas從Web上獲取數據(csv文件):

import pandas as pd
df1 = pd.read_csv("https://www.crowdflower.com/wp-content/uploads/2016/03/gender-classifier-DFE-791531.csv")

我第一次遇到以下錯誤:

IncompleteRead:IncompleteRead(讀取5738795字節,預計還會增加2437944)

我在jupyter筆記本的其他單元格中再次嘗試,並得到另一個錯誤:

URLError:

我第三次嘗試,Jupyter Notebook掛了好久了

知道這兩個錯誤是什么意思(熊貓試圖告訴我什么,發生了什么),以及如何解決它們?

如果您使用curl來下載文件,或者使用顯示文本的Web瀏覽器將其擊中,則將看到該文件不是UTF-8編碼的,這就是Pandas所假定的。 我無法告訴您該數據集的編碼方式,但是您可以作弊並使用ISO-8859-1至少將其加載並模擬1字節== 1個字符的幼稚(並且完全不真實)的假設,直到您可以了解編碼應該是什么。

import pandas as pd
url = "https://www.crowdflower.com/wp-content/uploads/2016/03/gender-classifier-DFE-791531.csv"
df1 = pd.read_csv(url, encoding="iso-8859-1")
print(df1)

然后,繼續閱讀。 這是一個古老的東西,但又是一個好東西: 每個軟件開發人員絕對絕對肯定要了解Unicode和字符集(沒有任何借口!) 就像他說的:“沒有借口!”

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM