簡體   English   中英

Pandas read_csv 創建尾隨未命名列並且未在整個 csv 文件中讀取

[英]Pandas read_csv creating trailing unnamed columns and not read in entire csv file

我在這里發現了一些類似的問題,但沒有一個能解決我的問題。 我有一個 csv 文件,其中一列包含一些長字符串,另一列包含一些短字符串。 當我讀到它時

df = pd.read_csv(file_path, encoding = 'UTF-8')

我有:

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

但我在 csv 文件中只有text colA colB colC colD這些列。

我認為我可以刪除那些未命名的列很好,但我發現我得到了df.shape is (180106, 11) \ 但是,我的 csv 文件大約有 270000 行。 我不知道這兩個問題是否相互關聯。

我試圖在 read_csv 中添加一個選項quoting=csv.QUOTE_NONE csv.QUOTE_NONE 這給了我:

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

這會跳過更多行,使其比 180106 行更少

我認為這可能與 CSV 文件的解析方式有關,但我不知道如何才能完全閱讀它。 抱歉,CSV 文件中的數據很敏感,所以我不能分享樣本。

只需將 csv 文件帶到您正在工作的文件名

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

by is null 您可以通過使用descrbive獲得所有數據列的真實值的總和您通過使用info獲得數據的統計描述如果沒有顯示數據信息,您將獲得所有數據詳細信息數據信息與數據相關聯並再次下載

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM