Pyparsing Unicode 字母

Question

我需要對 unicode 字符使用 pyparsing。 所以我嘗試了他們的 github 存儲庫中帶有法語字符cédille簡單示例並給出了錯誤。

我的代碼

from pyparsing import Word, alphas
greet = Word(alphas) + "," + Word(alphas) + "!"
hello = "Hello, cédille!"
greet.parseString(hello)

它給出了錯誤

pyparsing.ParseException: Expected "!" (at char 8), (line:1, col:9)

有沒有辦法解決這個問題？

Answer 1

Pyparsing 具有pyparsing_unicode模塊，該模塊定義了許多 unicode 字符范圍，並在每個范圍內定義了alphas 、 nums等。 范圍包括CJK 、 Cyrillic 、 Devanagari 、 Hebrew 、 Arabic等。 示例目錄中的greetingInGreek.py和greetingInKorean.py示例展示了其中的一些操作。

您使用 Latin1 集的示例將如下所示：

from pyparsing import Word, pyparsing_unicode as ppu
intl_alphas = ppu.Latin1.alphas
greet = Word(intl_alphas) + "," + Word(intl_alphas) + "!"
hello = "Hello, cédille!"
print(greet.parseString(hello))

印刷：

['Hello', ',', 'cédille', '!']

alphas8bit可能會保留用於舊版支持，但新應用程序應使用pyparsing_unicode.Latin1.alphas 。

Answer 2

alphas顯然只是英語/純 ASCII。 以下似乎有效：

from pyparsing import Word, alphas, alphas8bit
greet = Word(alphas+alphas8bit) + "," + Word(alphas+alphas8bit) + "!"
hello = "Hello, cédille!"
greet.parseString(hello)

這是 Unicode，因此字符é沒有什么特別的“8 位”； 但是，如果文檔至少大致正確，我想它仍然會與稍微更具異國情調的重音字符（Latin-1 中不可用的任何字符，例如捷克語或波蘭語重音字符，或者極端嘗試越南語）中斷。

也許探索unicodedata模塊以獲得“字母”字符的正確枚舉，或者找到正確公開此 Unicode 功能的第三方模塊。

Pyparsing Unicode 字母

問題描述

2 個解決方案

解決方案1
2 2019-11-29 16:24:36

解決方案2
1 2019-11-29 14:53:32

Pyparsing Unicode 字母

問題描述

2 個解決方案

解決方案1 2 2019-11-29 16:24:36

解決方案2 1 2019-11-29 14:53:32

解決方案1
2 2019-11-29 16:24:36

解決方案2
1 2019-11-29 14:53:32