如何將 .txt 數據導入到 Pandas 數據框中？

Question

我正在嘗試將https://drive.google.com/file/d/1leOUk4Z5xp9tTiFLpxgk_7KBv3xwn5eW/view 上的文件中的數據導入到熊貓數據框中。 我試過使用

    data = pd.read_csv('data_engineering_assignment.txt',sep="|")

但我收到一條錯誤消息：“ParserError：錯誤標記數據。C 錯誤：第 231 行預期有 9 個字段，看到 10 個”我不想使用 'error_bad_lines=False' 並跳過數據行。

請幫忙。

Answer 1

你的數據集有問題，問題是有時，我發現| 在 description_text 中：例如，對於此 ID 5d0c7c4c312ff75188d84954您有| 在of A|X design ，因此 Pandas 將第二部分視為一個新列（這就是為什么您Expected 9 fields, but saw 10消息： Expected 9 fields, but saw 10我希望這能幫助您理解問題。

Answer 2

您可以指定列名稱，說明有 10 個：

import pandas as pd

cols = ['_id','name','price','website_id','sku','url','brand','media','description_text','other']
dataframe = pd.read_csv('./data_engineering_assignment.txt', names=cols, sep='|' )
dataframe['description_text'] = dataframe['description_text'].map(str) + dataframe['other']
dataframe.to_csv('./data_engineering_assignment_v2.txt', index=False, sep=',')

由於熊貓必須猜測列數據類型，您將收到有關內存使用情況的警告，但沒關系

如何將 .txt 數據導入到 Pandas 數據框中？

問題描述

2 個解決方案

解決方案1
1 2019-11-29 08:33:39

解決方案2
0 2019-11-29 08:36:21

如何將 .txt 數據導入到 Pandas 數據框中？

問題描述

2 個解決方案

解決方案1 1 2019-11-29 08:33:39

解決方案2 0 2019-11-29 08:36:21

解決方案1
1 2019-11-29 08:33:39

解決方案2
0 2019-11-29 08:36:21