[英]How to import .txt data into a pandas dataframe?
我正在嘗試將https://drive.google.com/file/d/1leOUk4Z5xp9tTiFLpxgk_7KBv3xwn5eW/view 上的文件中的數據導入到熊貓數據框中。 我試過使用
data = pd.read_csv('data_engineering_assignment.txt',sep="|")
但我收到一條錯誤消息:“ParserError:錯誤標記數據。C 錯誤:第 231 行預期有 9 個字段,看到 10 個”我不想使用 'error_bad_lines=False' 並跳過數據行。
請幫忙。
你的數據集有問題,問題是有時,我發現|
在 description_text 中:例如,對於此 ID 5d0c7c4c312ff75188d84954
您有|
在of A|X design
,因此 Pandas 將第二部分視為一個新列(這就是為什么您Expected 9 fields, but saw 10
消息: Expected 9 fields, but saw 10
我希望這能幫助您理解問題。
您可以指定列名稱,說明有 10 個:
import pandas as pd
cols = ['_id','name','price','website_id','sku','url','brand','media','description_text','other']
dataframe = pd.read_csv('./data_engineering_assignment.txt', names=cols, sep='|' )
dataframe['description_text'] = dataframe['description_text'].map(str) + dataframe['other']
dataframe.to_csv('./data_engineering_assignment_v2.txt', index=False, sep=',')
由於熊貓必須猜測列數據類型,您將收到有關內存使用情況的警告,但沒關系
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.