[英]python pandas reading space separated data
我有 6 个空格分隔字段的文本文件,如下所示:
702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui> #HECRanking Rs71 Bil bdget alloctd 2 HEC is not in gud hands. v can imagne dat on which criteria #HEC is sending studnts abroad on Scholrshp
我想将 6 个字段读入熊猫 DF,但是将分隔符设置为空格会给我以下错误。
pandas.errors.ParserError:标记数据时出错。 C 错误:第 10 行预期 31 个字段,看到 35 个
这是代码:
data = pd.read_csv("twitter_file_path.txt", sep=" ", header=None)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
您可以读取一列中的所有数据,但文本中不存在某些分隔符,例如|
然后对于新列使用带有n
参数且没有分隔符的Series.str.split
,因为空间是默认的 sep:
data = pd.read_csv("twitter_file_path.txt", sep="|", names=['data'])
print (data)
data
0 702377236289228800 2016-02-24 09:19:17 +03 <Aa...
data = data['data'].str.split(n=5, expand=True)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
print (data)
seq date Hour GMT userID \
0 702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui>
text
0 #HECRanking Rs71 Bil bdget alloctd 2 HEC is no...
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.