在Python中將代碼拆分為令牌（Lexing）

Question

我正在嘗試標記以下代碼：

foo ::= 5
bar ::= 15
foobar ::= 20

所以輸出是：

['foo', '::=', '5', '\n', 'bar', '::=', '15', '/n', 'foobar', '::=', '20' ]

我當前的嘗試如下：

reTokens = re.compile(r' ')
tokens = reTokens.split(source)
print(tokens)

但是，此打印：

['\n', '', '', '', 'foo', '::=', '5\n', '', '', '', 'bar', '::=', '15\n', '', '', '', 'foobar', '::=', '20\n']

如您所見，這里有很多問題。 幾個主要問題是：

沒有完全刪除空間
某些標記未正確拆分（即“ \\ n”。在正則表達式中添加\\ n不能解決問題，因為這會將其完全從數組中刪除）。

Answer 1

您可以這樣做：

from functools import reduce

lines = source.splitlines()
tokens_list = [line.strip().split() for line in lines]
tokens = reduce(lambda x,y: x + ['\n'] + y, tokens_list)
print(tokens)

這會將源划分為其行，對每行進行標記，然后使它們成為在每行之間帶有\\n的單個列表。

在Python中將代碼拆分為令牌（Lexing）

問題描述

1 個解決方案

解決方案1
1 已采納 2015-10-24 21:49:40

在Python中將代碼拆分為令牌（Lexing）

問題描述

1 個解決方案

解決方案1 1 已采納 2015-10-24 21:49:40

解決方案1
1 已采納 2015-10-24 21:49:40