在csv中的列上设置索引和读取多索引

Question

我有一个.csv，看起来像：

SiteCode,('Max_Area',1), ('Max_Vol',1)
0003L,3037.1875,13390.319488525391
0009L,7719.25,476.31626510620117

第一列是所需的索引，随后的元组是我所需的列名称。 当我像这样阅读csv时：

df = pd.read_csv("file.csv",index_col=0)

我得到一个数据框，看起来像：

          (Max_Area            1)   (Max_Vol         1)
SiteCode                                                                
0003L     3037.1875  13390.319489  NaN  NaN       
0009L     7719.2500    476.316265  NaN  NaN

我想要一个看起来像的数据框：

SiteCode  (Max_Area,1)   (Max_Vol,1)                       
0003L     3037.1875  13390.319489    
0009L     7719.2500    476.316265

是否可以读取以逗号分隔的元组作为标题的csv？

Answer 1

您可以阅读第一行，提取列名称，并将此信息提供给csv阅读器：

import pandas as pd
import re

with open("test.txt", "r") as f:
    header = f.readline()[:-1]

pattern = re.compile(r"(?:[^,(]|\([^)]*\))+")
df = pd.read_csv("test.txt", names = pattern.findall(header), skiprows = 1)
#output
  SiteCode  ('Max_Area',1)  ('Max_Vol',1)
0    0003L       3037.1875   13390.319489
1    0009L       7719.2500     476.316265

Answer 2

您可以显式传递要使用的列名，并跳过标题行：

df = pd.read_csv("file.csv", 
                 names=['SiteCode', '(Max_Area, 1)', '(Max_Vol, 1)'],
                 skiprows=1, 
                 index_col=0)

df

          (Max_Area,1)   (Max_Vol,1)
SiteCode                         
0003L     3037.1875      13390.319489    
0009L     7719.2500        476.316265

在csv中的列上设置索引和读取多索引

问题描述

2 个解决方案

解决方案1
0 2018-03-06 20:39:32

解决方案2
0 已采纳 2018-03-06 22:33:52

在csv中的列上设置索引和读取多索引

问题描述

2 个解决方案

解决方案1 0 2018-03-06 20:39:32

解决方案2 0 已采纳 2018-03-06 22:33:52

解决方案1
0 2018-03-06 20:39:32

解决方案2
0 已采纳 2018-03-06 22:33:52