繁体   English   中英

熊猫read_csv向每行添加不必要的“”

[英]Pandas read_csv adds unnecessary “ ” to each row

我有一个csv文件

(我在这里显示前三行)

HEIGHT,WEIGHT,AGE,GENDER,SMOKES,ALCOHOL,EXERCISE,TRT,PULSE1,PULSE2,YEAR
173,57,18,2,2,1,2,2,86,88,93
179,58,19,2,2,1,2,1,82,150,93

我正在使用pandas read_csv读取文件并将其放入列中。

这是我的代码:

import pandas as pd
import os
path='~/Desktop/pulse.csv'

path=os.path.expanduser(path)
my_data=pd.read_csv(path, index_col=False, header=None, quoting = 3, delimiter=',')
print my_data

问题是第一列和最后一列的值前后都有“”。

另外,我无法摆脱索引。

可能会犯一些愚蠢的错误,但是我感谢您的提前帮助

最终解决方案-使用replace转换为int ,从列名中删除"使用strip

df = pd.read_csv('pulse.csv', quoting=3)

df = df.replace('"','', regex=True).astype(int)
df.columns = df.columns.str.strip('"')
print (df.head())

   HEIGHT  WEIGHT  AGE  GENDER  SMOKES  ALCOHOL  EXERCISE  TRT  PULSE1  \
0     173      57   18       2       2        1         2    2      86   
1     179      58   19       2       2        1         2    1      82   
2     167      62   18       2       2        1         1    1      96   
3     195      84   18       1       2        1         1    2      71   
4     173      64   18       2       2        1         3    2      90   

   PULSE2  YEAR  
0      88    93  
1     150    93  
2     176    93  
3      73    93  
4      88    93  

index_col=False表示不强制读取第一列以建立索引,但是数据帧始终需要一些索引,因此添加了默认值0,1,2... 所以这里可以省略。

header=None应该删除,因为它会强制不要将第一行(csv的标题) DataFrame列。 然后,数据的第一行也是标题,数字值将转换为字符串。

delimiter=','也应删除,因为它与sep=','是默认参数相同。

@jezrael是正确的-熊猫数据框将始终添加索引。 这是有必要的。

尝试使用类似df[0] = df[0].str.strip() ,将最后一列替换为零。

在执行此操作之前,请将您的csv转换为数据pd.DataFrame.from_csv(path)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM