繁体   English   中英

python pandas读取空间分隔数据

[英]python pandas reading space separated data

我有 6 个空格分隔字段的文本文件,如下所示:

702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui> #HECRanking Rs71 Bil bdget alloctd 2 HEC is not in gud hands. v can imagne dat on which criteria #HEC is sending studnts abroad on Scholrshp

我想将 6 个字段读入熊猫 DF,但是将分隔符设置为空格会给我以下错误。

pandas.errors.ParserError:标记数据时出错。 C 错误:第 10 行预期 31 个字段,看到 35 个

这是代码:

data = pd.read_csv("twitter_file_path.txt", sep=" ", header=None)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]

您可以读取一列中的所有数据,但文本中不存在某些分隔符,例如| 然后对于新列使用带有n参数且没有分隔符的Series.str.split ,因为空间是默认的 sep:

data = pd.read_csv("twitter_file_path.txt", sep="|", names=['data'])
print (data)
                                                data
0  702377236289228800 2016-02-24 09:19:17 +03 <Aa...

data = data['data'].str.split(n=5, expand=True)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
print (data)
                  seq        date      Hour  GMT            userID  \
0  702377236289228800  2016-02-24  09:19:17  +03  <Aadil_Siddiqui>   

                                                text  
0  #HECRanking Rs71 Bil bdget alloctd 2 HEC is no...  

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM