[英]Pandas read_csv creating trailing unnamed columns and not read in entire csv file
我在這里發現了一些類似的問題,但沒有一個能解決我的問題。 我有一個 csv 文件,其中一列包含一些長字符串,另一列包含一些短字符串。 當我讀到它時
df = pd.read_csv(file_path, encoding = 'UTF-8')
我有:
text colA colB colC colD Unnamed: 5 Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10
但我在 csv 文件中只有text colA colB colC colD
這些列。
我認為我可以刪除那些未命名的列很好,但我發現我得到了df.shape
is (180106, 11)
\ 但是,我的 csv 文件大約有 270000 行。 我不知道這兩個問題是否相互關聯。
我試圖在 read_csv 中添加一個選項quoting=csv.QUOTE_NONE
csv.QUOTE_NONE 這給了我:
b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\
這會跳過更多行,使其比 180106 行更少
我認為這可能與 CSV 文件的解析方式有關,但我不知道如何才能完全閱讀它。 抱歉,CSV 文件中的數據很敏感,所以我不能分享樣本。
只需將 csv 文件帶到您正在工作的文件名
df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()
by is null 您可以通過使用descrbive獲得所有數據列的真實值的總和您通過使用info獲得數據的統計描述如果沒有顯示數據信息,您將獲得所有數據詳細信息數據信息與數據相關聯並再次下載
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.