如何使用熊貓在最后一個字段中存在分隔符的情況下讀取CSV文件？

Question

我有以下格式的原始數據：

JobID,Publish,Expire,TitleAndDetail
7428,17/12/2006 2:00:00 PM,28/01/2007 2:00:00 PM,Project Engineer - Mechanical      Looking,.....,....
7429,9/03/2006 2:00:00 PM,27/02/2007 2:00:00 PM,Supply Teacher      The job is,.....,.....

如您所見，定界符是逗號，但是最后一列是其中包含逗號的文本塊。 我正在使用熊貓的read_csv函數讀取此CSV文件。 但是，在熊貓數據框中，每行第四個逗號之后的文本部分會丟失。

raw_data = pd.read_csv(r"/ABC/JobDetails.csv",
                       names=['JobID', 'Publish', 'Expire', 'TitleAndDetail'],
                       header=None
                       )

如果使用string.split()函數，則可以指定maxsplit參數，即使有很多逗號，該參數也可以將所有內容保留在最后一列中。 熊貓有類似的功能嗎？

Answer 1

因此，您可以嘗試以下方法：

raw_data = pd.read_csv(r"/ABC/JobDetails.csv",
                       squeeze=True,
                       sep="\a"
                       )

這應該通過忽略“，”

然后，您可以執行以下操作：

df = raw_data.str.split(",", n=4, expand=True)
df.columns = ['JobID', 'Publish', 'Expire', 'TitleAndDetail']

那應該分成4列並重命名

Answer 2

您可以通過以下方式進行操作：

with open("file.csv", "r") as fp:
    reader = csv.reader(fp, delimiter=",")
    rows = [x[:3] + [','.join(x[3:])] for x in reader]
    df = pd.DataFrame(rows)
    df.columns = df.iloc[0]
    df = df.reindex(df.index.drop(0))
    print df

Answer 3

手動讀取文件，然后創建數據框：

rows = []

with open('somefile.csv') as f:
  keys = next(f).split(',')
  for line in f:
     rows.append(dict(zip(keys, line.split(',', 3))))

df = pd.DataFrame(rows)

.split一個可選參數來限制它在定界符上分割的次數。 傳遞3表示它會忽略最后一個字段中的逗號：

>>> s.split(',', 3)
['7428',
 '17/12/2006 2:00:00 PM',
 '28/01/2007 2:00:00 PM',
 'Project Engineer - Mechanical      Looking,.....,....']

接下來，我們使用標題行中的鍵和數據行中的值創建一個字典：

>>> f = 'JobID,Publish,Expire,TitleAndDetail'.split(',')
>>> dict(zip(f, s.split(',', 3)))
{'JobID': '7428',
 'Publish': '17/12/2006 2:00:00 PM',
 'Expire': '28/01/2007 2:00:00 PM',
 'TitleAndDetail': 'Project Engineer - Mechanical      Looking,.....,....'}

最后，我們列出這些字典（ rows ）的列表，並將其作為參數傳遞來創建數據框對象。

如何使用熊貓在最后一個字段中存在分隔符的情況下讀取CSV文件？

問題描述

3 個解決方案

解決方案1
0 2018-09-26 06:43:45

解決方案2
0 2018-09-26 06:53:29

解決方案3
0 已采納 2018-09-26 06:56:01

如何使用熊貓在最后一個字段中存在分隔符的情況下讀取CSV文件？

問題描述

3 個解決方案

解決方案1 0 2018-09-26 06:43:45

解決方案2 0 2018-09-26 06:53:29

解決方案3 0 已采納 2018-09-26 06:56:01

解決方案1
0 2018-09-26 06:43:45

解決方案2
0 2018-09-26 06:53:29

解決方案3
0 已采納 2018-09-26 06:56:01