繁体   English   中英

列数据中的python pandas read_csv定界符

[英]python pandas read_csv delimiter in column data

我有这种类型的CSV文件:

12012;My Name is Mike. What is your's?;3;0 
1522;In my opinion: It's cool; or at least not bad;4;0
21427;Hello. I like this feature!;5;1

我想将此数据放入da pandas.DataFrame 但是由于第2行中用户生成的消息列中的分号,因此read_csv(sep=";")会引发异常(在我看来:这很酷;或者至少还不错)。 其余所有列始终具有数字dtype。

最方便的管理方法是什么?

处理不带引号的定界符总是很麻烦。 在这种情况下,由于已知损坏的文本看起来被三个正确编码的列包围,因此我们可以进行恢复。 TBH,我只需要使用标准的Python阅读器并从中构建一个DataFrame:

import csv
import pandas as pd

with open("semi.dat", "r", newline="") as fp:
    reader = csv.reader(fp, delimiter=";")
    rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader] 
    df = pd.DataFrame(rows)

产生

       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

然后,我们可以立即保存它并得到正确引用的内容:

In [67]: df.to_csv("fixedsemi.dat", sep=";", header=None, index=False)

In [68]: more fixedsemi.dat
12012;My Name is Mike. What is your's?;3;0
1522;"In my opinion: It's cool; or at least not bad";4;0
21427;Hello. I like this feature!;5;1

In [69]: df2 = pd.read_csv("fixedsemi.dat", sep=";", header=None)

In [70]: df2
Out[70]: 
       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM