簡體   English   中英

csv文件中的字段包含引號時,Pandas錯誤標記數據

[英]Pandas error tokenizing data when field in csv file contains quotation mark

我正在使用pandas.read_csv讀取制表符分隔的文件,並pandas.read_csv以下錯誤:標記數據出錯。 C錯誤:在73058行中預期有364個字段,看到398

經過大量搜索之后,似乎令人反感的條目是: "– SO ,쳌 \\\\ ?Œ ø ,d -L ,ú ,‚ ZO

刪除引號似乎可以解決問題。 我有很多大文件,里面有很多奇怪的字符,所以毫無疑問,這會重復一遍。 我是否需要提前刪除單引號,或者是否可以解決此問題?

read_csv有一個引號參數:

quoting : int or csv.QUOTE_* instance, default None
    Control field quoting behavior per ``csv.QUOTE_*`` constants. Use one of
    QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
    Default (None) results in QUOTE_MINIMAL behavior.

這些在csv docs中進行了描述

嘗試設置quoting=3 (即QUOTE_NONE )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM