简单的嵌套表达式与pyparsing匹配

Question

我想匹配一个看起来像这样的表达式：

(<some value with spaces and m$1124any crazy signs> (<more values>) <even more>)

我只想沿方括号（）拆分这些值。 目前，我可以减少s-expression示例中的pyparsing开销，因为这是广泛且难以理解的（IMHO）。

我可以使用nestedExpr语句，将其减少为一行：

import pyparsing as pp
parser = pp.nestedExpr(opener='(', closer=')')
print parser.parseString(example, parseAll=True).asList()

结果也似乎在空白处被分割，我不希望这样做：

  skewed_output = [['<some',
  'value',
  'with',
  'spaces',
  'and',
  'm$1124any',
  'crazy',
  'signs>',
  ['<more', 'values>'],
  '<even',
  'more>']]
expected_output = [['<some value with spaces and m$1124any crazy signs>' 
['<more values>'], '<even more>']]
best_output = [['some value with spaces and m$1124any crazy signs' 
['more vlaues'], 'even more']]

可选地，我很乐意在任何地方都可以读到一些易于理解的介绍，例如如何包括更详细的解析器（我想提取<>括号之间的值并将其匹配（请参阅best_output ），但是我可以之后总是将它们string.strip() 。

提前致谢！

Answer 1

Pyparsing的nestedExpr接受content和ignoreExpr参数，这些参数指定什么是s-expr的“单个项目”。 您可以在此处传递QuotedString 。 不幸的是，我对文档中两个参数之间的区别还不够了解，但是一些实验表明，以下代码应满足您的要求：

import pyparsing as pp

single_value = pp.QuotedString(quoteChar="<", endQuoteChar=">")
parser = pp.nestedExpr(opener="(", closer=")",
                       content=single_value,
                       ignoreExpr=None)

example = "(<some value with spaces and m$1124any crazy signs> (<more values>) <even more>)"
print(parser.parseString(example, parseAll=True))

输出：

[['some value with spaces and m$1124any crazy signs', ['more values'], 'even more']]

它期望列表以( ，以)结尾，并包含一些可选的用空格分隔的列表或带引号的字符串，每个带引号的字符串应以<开头，以>结束并且不包含<内部。

您可以更多地使用content和ignoreExpr参数来发现content=None, ignoreExpr=single_value使content=None, ignoreExpr=single_value接受带引号和不带引号的字符串（以及带空格的不带引号的字符串）：

import pyparsing as pp

single_value = pp.QuotedString(quoteChar="<", endQuoteChar=">")
parser = pp.nestedExpr(opener="(", closer=")", ignoreExpr=single_value, content=None)

example = "(<some value with spaces and m$1124any crazy signs> (<more values>) <even m<<ore> foo (foo) <(foo)>)"
print(parser.parseString(example, parseAll=True))

输出：

[['some value with spaces and m$1124any crazy signs', ['more values'], 'even m<<ore', 'foo', ['foo'], '(foo)']]

一些问题悬而未决：

为什么pyparsing会忽略连续列表项之间的空格？
content和ignoreExpr什么区别，什么时候应该使用它们？

简单的嵌套表达式与pyparsing匹配

问题描述

1 个解决方案

解决方案1
4 已采纳 2017-02-07 02:15:13

简单的嵌套表达式与pyparsing匹配

问题描述

1 个解决方案

解决方案1 4 已采纳 2017-02-07 02:15:13

解决方案1
4 已采纳 2017-02-07 02:15:13