簡體   English   中英

python pandas讀取空間分隔數據

[英]python pandas reading space separated data

我有 6 個空格分隔字段的文本文件,如下所示:

702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui> #HECRanking Rs71 Bil bdget alloctd 2 HEC is not in gud hands. v can imagne dat on which criteria #HEC is sending studnts abroad on Scholrshp

我想將 6 個字段讀入熊貓 DF,但是將分隔符設置為空格會給我以下錯誤。

pandas.errors.ParserError:標記數據時出錯。 C 錯誤:第 10 行預期 31 個字段,看到 35 個

這是代碼:

data = pd.read_csv("twitter_file_path.txt", sep=" ", header=None)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]

您可以讀取一列中的所有數據,但文本中不存在某些分隔符,例如| 然后對於新列使用帶有n參數且沒有分隔符的Series.str.split ,因為空間是默認的 sep:

data = pd.read_csv("twitter_file_path.txt", sep="|", names=['data'])
print (data)
                                                data
0  702377236289228800 2016-02-24 09:19:17 +03 <Aa...

data = data['data'].str.split(n=5, expand=True)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
print (data)
                  seq        date      Hour  GMT            userID  \
0  702377236289228800  2016-02-24  09:19:17  +03  <Aadil_Siddiqui>   

                                                text  
0  #HECRanking Rs71 Bil bdget alloctd 2 HEC is no...  

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM