如何将“发票”级别的数据解析为柱状数据以进行分析？

Question

数据看起来像这样

发票1

ID
Lat
Long
Year 
Month
Observations
1
.
.
.
n

＃-----

发票2-n （图案重复）

我的目标是以表格的形式结束

ID | Lat | Long | Year | Month | Obs 1 | Obs 2 | Obs 3 | Obs n

#-----充当发票之间的分隔符

从宽到长很容易，但是编写映射规则并遍历数据的最佳方法是什么？ 我所有的数据都存储在一个.csv文件中，但超过了100万行。

我正在寻找一个起点，以及处理这种格式数据的一般过程。

Answer 1

with open('path/to/input') as infile, open('path/to/output', 'w') as fout:
    outfile = csv.writer(fout)
    invoice = []
    for line in infile:
        if line.startswith("Invoice"):
            outfile.writerow(invoice)
            invoice = []
            continue
        line = line.strip()
        if not line: continue
        invoice.append(line)
    outfile.writerow(invoice)

Answer 2

一个简单的循环应该起作用：

with open('...') as infile:
  data = []
  line = []
  item = infile.readline().strip()
  while item != '':
    if item.startswith('#-----'):
      data.append(line)
      line = []
    else:
      line.append(item)
    item = infile.readline().strip()

最后， data是列表的列表（不一定是矩形）。

如何将“发票”级别的数据解析为柱状数据以进行分析？

问题描述

2 个解决方案

解决方案1
0 已采纳 2017-05-30 19:28:37

解决方案2
0 2017-05-30 19:33:55

如何将“发票”级别的数据解析为柱状数据以进行分析？

问题描述

2 个解决方案

解决方案1 0 已采纳 2017-05-30 19:28:37

解决方案2 0 2017-05-30 19:33:55

解决方案1
0 已采纳 2017-05-30 19:28:37

解决方案2
0 2017-05-30 19:33:55