如何在python的lark-parser中解析帶有unicode字符的字符串

Question

我正在嘗試在 Python 中使用 Lark 解析器來解析一些 sql 字符串。 一些語句中包含 unicode 字符，導致解析器拋出錯誤（帶有 ó,é 的字符串）。 我使用以下幾行在我的 .lark 文件中定義字符串

LATIN_LETTER: /[u"\u00a1-\u02af"]/
STRING: (LATIN_LETTER|LETTER|DIGIT|PUNCTUATION)+

拋出錯誤

E   UnexpectedCharacters: No terminal defined for '�' at line 154 col 126
E   
E   jillo', 'Owner', 'Avda. de la Constitución 2222', 'México D.F.', NULL, '05021'

我是否在 .lark 文件中錯誤地指定了 unicode 字母？ 這樣做的正確方法是什么？

Answer 1

改變

LATIN_LETTER: /[u"\u00a1-\u02af"]/

至

LATIN_LETTER: ("¡".."ʯ")

工作過

Answer 2

CHINESE_LETTER: ("\u4e00".."\u9fff") | ("\u3000".."\u303f")

如何在python的lark-parser中解析帶有unicode字符的字符串

問題描述

2 個解決方案

解決方案1
1 2020-06-10 19:39:54

解決方案2
-1 2021-07-15 08:58:49

如何在python的lark-parser中解析帶有unicode字符的字符串

問題描述

2 個解決方案

解決方案1 1 2020-06-10 19:39:54

解決方案2 -1 2021-07-15 08:58:49

解決方案1
1 2020-06-10 19:39:54

解決方案2
-1 2021-07-15 08:58:49