[英]python pandas reading space separated data
我有 6 個空格分隔字段的文本文件,如下所示:
702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui> #HECRanking Rs71 Bil bdget alloctd 2 HEC is not in gud hands. v can imagne dat on which criteria #HEC is sending studnts abroad on Scholrshp
我想將 6 個字段讀入熊貓 DF,但是將分隔符設置為空格會給我以下錯誤。
pandas.errors.ParserError:標記數據時出錯。 C 錯誤:第 10 行預期 31 個字段,看到 35 個
這是代碼:
data = pd.read_csv("twitter_file_path.txt", sep=" ", header=None)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
您可以讀取一列中的所有數據,但文本中不存在某些分隔符,例如|
然后對於新列使用帶有n
參數且沒有分隔符的Series.str.split
,因為空間是默認的 sep:
data = pd.read_csv("twitter_file_path.txt", sep="|", names=['data'])
print (data)
data
0 702377236289228800 2016-02-24 09:19:17 +03 <Aa...
data = data['data'].str.split(n=5, expand=True)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
print (data)
seq date Hour GMT userID \
0 702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui>
text
0 #HECRanking Rs71 Bil bdget alloctd 2 HEC is no...
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.