繁体   English   中英

熊猫 read_csv dtype 前导零

[英]Pandas read_csv dtype leading zeros

所以我正在读取来自 NOAA 的站代码 csv 文件,它看起来像这样:

"USAF","WBAN","STATION NAME","CTRY","FIPS","STATE","CALL","LAT","LON","ELEV(.1M)","BEGIN","END"
"006852","99999","SENT","SW","SZ","","","+46817","+010350","+14200","",""
"007005","99999","CWOS 07005","","","","","-99999","-999999","-99999","20120127","20120127"

前两列包含气象站的代码,有时它们有前导零。 当熊猫在不指定 dtype 的情况下导入它们时,它们会变成整数。 这并不是什么大问题,因为我可以遍历数据帧索引并将它们替换为"%06d" % i因为它们总是六位数,但你知道......这是懒人的方式。

使用以下代码获取 csv:

file = urllib.urlopen(r"ftp://ftp.ncdc.noaa.gov/pub/data/inventories/ISH-HISTORY.CSV")
output = open('Station Codes.csv','wb')
output.write(file.read())
output.close()

这一切都很好,但是当我去尝试使用它阅读它时:

import pandas as pd
df = pd.io.parsers.read_csv("Station Codes.csv",dtype={'USAF': np.str, 'WBAN': np.str})

要么

import pandas as pd
df = pd.io.parsers.read_csv("Station Codes.csv",dtype={'USAF': str, 'WBAN': str})

我收到一条令人讨厌的错误消息:

File "C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\io\parsers.py", line 401, in parser
_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\io\parsers.py", line 216, in _read
    return parser.read()
  File "C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\io\parsers.py", line 633, in read
    ret = self._engine.read(nrows)
  File "C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\io\parsers.py", line 957, in read
    data = self._reader.read(nrows)
  File "parser.pyx", line 654, in pandas._parser.TextReader.read (pandas\src\parser.c:5931)
  File "parser.pyx", line 676, in pandas._parser.TextReader._read_low_memory (pandas\src\parser.c:6148)
  File "parser.pyx", line 752, in pandas._parser.TextReader._read_rows (pandas\src\parser.c:6962)
  File "parser.pyx", line 837, in pandas._parser.TextReader._convert_column_data (pandas\src\parser.c:7898)
  File "parser.pyx", line 887, in pandas._parser.TextReader._convert_tokens (pandas\src\parser.c:8483)
  File "parser.pyx", line 953, in pandas._parser.TextReader._convert_with_dtype (pandas\src\parser.c:9535)
  File "parser.pyx", line 1283, in pandas._parser._to_fw_string (pandas\src\parser.c:14616)
TypeError: data type not understood

这是一个非常大的 csv(31k 行),所以也许这与它有关?

这是pandas dtype guessing的问题。

Pandas 看到数字并猜测您希望它是数字。

为了让 Pandas 不会怀疑你的意图,你应该设置你想要的 dtype: object

pd.read_csv('filename.csv', dtype={'leading_zero_column_name': object})

会做的伎俩

更新,因为它可以帮助其他人:

要将所有列都作为 str,可以这样做(来自评论):

pd.read_csv('sample.csv', dtype = str)

要将大多数或选择性列作为 str,可以这样做:

# lst of column names which needs to be string
lst_str_cols = ['prefix', 'serial']
# use dictionary comprehension to make dict of dtypes
dict_dtypes = {x : 'str'  for x in lst_str_cols}
# use dict on dtypes
pd.read_csv('sample.csv', dtype=dict_dtypes)

在解析带有序列号的文件时,这个问题让我很头疼。 由于未知原因,00794 和 000794 是两个不同的序列号。 我最终想出了

converters = {'serial_number': str}

如果您不希望它成为对象,则看起来您必须指定字符串的长度。
例如:

dtype={'USAF': '|S6'}

我找不到这方面的参考资料,但我似乎记得 Wes 讨论过这个问题(也许是在一次谈话中)。 他建议 numpy 不允许“适当的”可变长度字符串(请参阅此问题/答案),并且使用最大长度来填充数组通常会导致非常低的空间效率(即使字符串很短,它也会使用与最长字符串一样多的空间)。

正如@Wes 指出的那样,这也是一种情况:

dtype={'USAF': object}

效果也一样。

您可以将函数字典传递给converters ,其中键是数字列索引。 因此,如果您不知道您的列名是什么,您可以这样做(假设您的列数少于 100)。

pd.read_csv('some_file.csv', converters={i: str for i in range(100)})

使用 Pandas 1,如何:

df.read_csv(..., dtype={"my_confusing_col": "string"})

请注意,将使用列pd.NA string ,该stringpd.NA用于任何缺失值。 当然,所有前导零都将被保留。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM