繁体   English   中英

字符串格式问题(括号与下划线)

[英]String formatting issue (parantheses vs underline)

我得到了一个包含我所有数据的文本文件

data = 'B:/tempfiles/bla.dat'

从文本文件中,我列出了列标题及其类型

col_headers = [('VW_3_Avg','<f8'),('Lvl_Max(1)','<f8')]

然后创建一个包含选项的字典变量:

kwargs = dict(delimiter=',',\
              deletechars=' ',\
              dtype=col_headers,\
              skip_header=4,\
              skip_footer=0,\
              filling_values='NaN',\
              missing_values={'\"NAN\"'}\
              )

现在将数据导入变量数据文件

datafile = scipy.genfromtxt(datafile, **kwargs)

然后我分配数据

VW1 = datafile['VW_3_Avg']
Lv1 = datafile['Lvl_Max(1)']

它适用于第一个(包含下划线),而不是第二个(括号)。 我得到一个错误,不仅是这个条目,还有所有包含括号的:

ValueError: field named Lvl_Max(1) not found 

当我将文本文件中的那些括号更改为下划线时,它运行良好。 但我不能说为什么它不允许我使用括号——而且我无法更改文本文件格式,因为这是在外部生成的。 当然,我可以用脚本将括号更改为下划线,但我认为正确处理应该不是什么大问题。 在这种情况下,我在哪里以及为什么缺少正确的格式优先级?

当您遇到genfromtxt问题时,您应该做的第一件事就是打印shapedtype

为什么你需要使用()col_headers = [('VW_3_Avg','<f8'),('Lvl_Max(1)','<f8')]

是因为文件在标题中有这些名称吗?

如果你是给自己的dtype ,并使用skip_header不要紧什么上的文件。 重要的是dtype中的字段名称,而不是文件中的字段名称。

我们可以深入研究dtype文档并找到允许使用的字符。 可以用作 Python 变量名称的字段名称肯定会起作用。 我并不惊讶()会被禁止或有问题,尽管我还没有测试过。


实际上'Lvl_Max(1)'作为 dtype 字段名称是可以接受的:

In [235]: col_headers = [('VW_3_Avg','<f8'),('Lvl_Max(1)','<f8')]
In [236]: A=np.zeros((3,),dtype=col_headers)
In [237]: A
Out[237]: 
array([(0.0, 0.0), (0.0, 0.0), (0.0, 0.0)], 
      dtype=[('VW_3_Avg', '<f8'), ('Lvl_Max(1)', '<f8')])
In [238]: A['Lvl_Max(1)']
Out[238]: array([ 0.,  0.,  0.])

您应该从一开始就向我们展示datafile.shapedatafile.dtype 这些genfromtxt问题中有 90% 源于对函数返回的误解。


让我们用这个 dtype 尝试一个简单的文件读取:

In [239]: txt=b"""1 2
   .....: 3 4
   .....: 5 6
   .....: """
In [240]: np.genfromtxt(txt.splitlines(),dtype=col_headers)
Out[240]: 
array([(1.0, 2.0), (3.0, 4.0), (5.0, 6.0)], 
      dtype=[('VW_3_Avg', '<f8'), ('Lvl_Max1', '<f8')])

看看dtype genfromtxt去掉了'(1)' 看起来genfromtxt '清理'了字段名称,毫无疑问,因为文本文件上的名称可能有各种有趣的东西。

genfromtxt文档:

具有结构化 dtype 的 Numpy 数组也可以被视为 recarray,其中可以像访问属性一样访问字段。 出于这个原因,我们可能需要确保字段名称不包含任何空格或无效字符,或者它不对应于标准属性的名称(如大小或形状),这会混淆解释器。


genfromtxt接受一个deletechars参数,它应该让您控制从字段名称中删除哪些字符。 但它的应用是不一致的。

In [282]: np.genfromtxt(txt.splitlines(),names=np.dtype(col_headers).names,deletechars=set(b' '),dtype=None)
Out[282]: 
array([(1, 2), (3, 4), (5, 6)], 
      dtype=[('VW_3_Avg', '<i4'), ('Lvl_Max(1)', '<i4')])

In [283]: np.genfromtxt(txt.splitlines(),names=np.dtype(col_headers).names,deletechars=set(b' '))
Out[283]: 
array([(1.0, 2.0), (3.0, 4.0), (5.0, 6.0)], 
      dtype=[('VW_3_Avg', '<f8'), ('Lvl_Max1', '<f8')])

dtype=None是必需的。

默认设置很大:

defaultdeletechars = set("""~!@#$%^&*()-=+~\|]}[{';: /?.>,<""")

问题是deletechars传递给validator

validate_names = NameValidator(...
                               deletechars=deletechars,...)

它用于清除标题和names参数中的names 但随后名称(和 dtype)被传递

dtype = easy_dtype(dtype, defaultfmt=defaultfmt, names=names)

没有deletechars参数。 这个问题大约在一年前解决, https://github.com/numpy/numpy/pull/4649 ,所以可能会在新的(est)版本中修复。

该行为被记录在案, lib/_iotools.pyNameValidator类解析传递给genfromtxt的名称:

class NameValidator(object):
    """
    Object to validate a list of strings to use as field names.
    The strings are stripped of any non alphanumeric character, and spaces
    are replaced by '_'. During instantiation, the user can define a list
    of names to exclude, as well as a list of invalid characters. Names in
    the exclusion list are appended a '_' character.
    Once an instance has been created, it can be called with a list of
    names, and a list of valid names will be created.  The `__call__`
    method accepts an optional keyword "default" that sets the default name
    in case of ambiguity. By default this is 'f', so that names will
    default to `f0`, `f1`, etc.

您的情况的相关行是The strings are stripped of any non alphanumeric character

您可以通过在名称中包含其他非字母数字字符的列表上调用NameValidator.validate来查看行为:

In [17]: from numpy.lib._iotools import NameValidator

In [18]: l = ["foo(1)","bar!!!","foo bar??"]

In [19]: NameValidator().validate(l)
Out[19]: ('foo1', 'bar', 'foo_bar')

同样使用 genfromtxt:

In [24]: datafile = np.genfromtxt("foo.txt", dtype=[('foo!! bar??', '<f8'), ('foo bar bar$', '<f8')], delimiter=",",defaultfmt="%")

In [25]: datafile.dtype
Out[25]: dtype([('foo_bar', '<f8'), ('foo_bar_bar', '<f8')])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM