繁体   English   中英

如何在 Python 中使用 Pandas 连接 CSV 文件中的列

[英]How to join columns in CSV files using Pandas in Python

我有一个看起来像这样的 CSV 文件:

# data.csv (this line is not there in the file)
Names, Age, Names
John, 5, Jane
Rian, 29, Rath

当我在 Python 中通过 Pandas 阅读它时,我得到了这样的信息:

import pandas as pd

data = pd.read_csv("data.csv")
print(data)

程序的输出是:

  Names   Age  Names
0  John     5   Jane
1  Rian    29   Rath

有什么办法可以得到:

  Names   Age  
0  John     5   
1  Rian    29   
2  Jane
3  Rath

首先,我建议为每列使用唯一的名称。 要么进入 csv 文件并更改列标题的名称,要么在 Pandas 中这样做。

使用'Names2'作为第二次出现相同列名的列的标题,试试这个:

从...开始

datalist = [['John', 5, 'Jane'], ['Rian', 29, 'Rath']]
df = pd.DataFrame(datalist, columns=['Names', 'Age', 'Names2'])

我们有

  Names  Age Names
0  John    5  Jane
1  Rian   29  Rath

所以,使用:

dff = pd.concat([df['Names'].append(df['Names2'])
                                    .reset_index(drop=True), 
                 df.iloc[:,1]], ignore_index=True, axis=1)
                .fillna('').rename(columns=dict(enumerate(['Names', 'Ages'])))

得到你想要的结果。

从里到外:
df.append组合列。
pd.concat( ... )df.append的结果与数据帧的其余部分结合起来。

要了解其他命令的作用,我建议将它们一一删除并查看结果。

请原谅dff 我试图从教育的角度把一切都说清楚。 调整缩进以便代码可以编译。

您可以使用:
usecols有助于仅读取选定的列。
使用 low_memory以便我们在内部以块的形式处理文件。

import pandas as pd

data = pd.read_csv("data.csv", usecols = ['Names','Age'], low_memory = False))
print(data)

请在您的 csv 中有唯一的列名

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM