在Python熊貓中解析不規則間距的文本文件

Question

我有一個文本文件，看起來像：

Date     Fruit-type  Color         count
aug-6     apple  green         4
aug-7     pear  brown         5
aug-3     peach  yellow         10
aug-29     orange  orange         34

我想解析它，以將不規則空間刪除為格式正確的熊貓數據框。 我以為要刪除空格，並用另一個定界符替換它們，但無法弄清楚邏輯。

所需的輸出

Date,Fruit-type,Color,count
aug-6,apple,green,4
aug-7,pear,brown,5
aug-3,peach,yellow,10
aug-29,orange,orange,34

Answer 1

如果可以使用命令行工具，則可以運行此awk命令以將其從空格分隔為逗號分隔。

awk '{for (i=1; i<NF; i++){printf "%s,", $i} print $NF}' data.txt

否則，大熊貓可以輕松導入以空格分隔的文件。

import pandas as pd

frame = pd.read_table('data.txt', sep='\s+')

使用data.txt作為：

Date     Fruit-type  Color         count
aug-6     apple  green         4
aug-7     pear  brown         5
aug-3     peach  yellow         10
aug-29     orange  orange         34

輸出是

     Date Fruit-type   Color  count
0   aug-6      apple   green      4
1   aug-7       pear   brown      5
2   aug-3      peach  yellow     10
3  aug-29     orange  orange     34

您可以在此處了解更多信息： http : //pandas.pydata.org/pandas-docs/stable/io.html#csv-text-files

Answer 2

gawk '{gsub(/[[:blank:]]+/, ",")}1' file

Date,Fruit-type,Color,count
aug-6,apple,green,4
aug-7,pear,brown,5
aug-3,peach,yellow,10
aug-29,orange,orange,34

在Python熊貓中解析不規則間距的文本文件

問題描述

2 個解決方案

解決方案1
5 已采納 2016-09-22 00:47:57

解決方案2
0 2016-09-22 13:21:08

在Python熊貓中解析不規則間距的文本文件

問題描述

2 個解決方案

解決方案1 5 已采納 2016-09-22 00:47:57

解決方案2 0 2016-09-22 13:21:08

解決方案1
5 已采納 2016-09-22 00:47:57

解決方案2
0 2016-09-22 13:21:08