为什么我的 antlr 词法分析器 java class “代码太大”？

Question

这是 Antlr 中的词法分析器（对不起，文件很长）：

lexer grammar SqlServerDialectLexer;
/* T-SQL words */
AND: 'AND';
BIGINT: 'BIGINT';
BIT: 'BIT';
CASE: 'CASE';
CHAR: 'CHAR';
COUNT: 'COUNT';
CREATE: 'CREATE';
CURRENT_TIMESTAMP: 'CURRENT_TIMESTAMP';
DATETIME: 'DATETIME';
DECLARE: 'DECLARE';
ELSE: 'ELSE';
END: 'END';
FLOAT: 'FLOAT';
FROM: 'FROM';
GO: 'GO';
IMAGE: 'IMAGE';
INNER: 'INNER';
INSERT: 'INSERT';
INT: 'INT';
INTO: 'INTO';
IS: 'IS';
JOIN: 'JOIN';
NOT: 'NOT';
NULL: 'NULL';
NUMERIC: 'NUMERIC';
NVARCHAR: 'NVARCHAR';
ON: 'ON';
OR: 'OR';
SELECT: 'SELECT';
SET: 'SET';
SMALLINT: 'SMALLINT';
TABLE: 'TABLE';
THEN: 'THEN';
TINYINT: 'TINYINT';
UPDATE: 'UPDATE';
USE: 'USE';
VALUES: 'VALUES';
VARCHAR: 'VARCHAR';
WHEN: 'WHEN';
WHERE: 'WHERE';

QUOTE: '\'' { textMode = !textMode; };
QUOTED: {textMode}?=> ~('\'')*;

EQUALS: '=';
NOT_EQUALS: '!=';
SEMICOLON: ';';
COMMA: ',';
OPEN: '(';
CLOSE: ')';
VARIABLE: '@' NAME;
NAME:
    ( LETTER | '#' | '_' ) ( LETTER | NUMBER | '#' | '_' | '.' )*
    ;
NUMBER: DIGIT+;

fragment LETTER: 'a'..'z' | 'A'..'Z';
fragment DIGIT: '0'..'9';
SPACE
    :
    ( ' ' | '\t' | '\n' | '\r' )+
    { skip(); }
    ;

JDK 1.6 说code too large ，无法编译。 为什么以及如何解决问题？

Answer 1

实际上我不会说这是一个大语法，并且它不能产生合理大小的代码肯定是有原因的。

我认为问题与此规则直接相关：

QUOTED: {textMode}?=> ~('\'')*;

是否有任何特殊原因让您希望将 QUOTED 部分作为一个单独的标记，而不是将其与引号结合在一起，因为 Bart 也将其放在他的语法中？ 这也会使textMode变量过时。

删除 QUOTE 并将 QUOTED 替换为

QUOTED: '\'' (~'\'')* '\'';

即使不拆分语法，也很可能会解决问题。

Answer 2

把你的语法分成几个复合语法。 小心你把什么放在哪里。 例如，您不想将NAME规则放在您的顶级语法中，并将关键字放入导入的语法中： NAME会“覆盖”匹配的关键字。

这有效：

银

lexer grammar A;

SELECT: 'SELECT';
SET: 'SET';
SMALLINT: 'SMALLINT';
TABLE: 'TABLE';
THEN: 'THEN';
TINYINT: 'TINYINT';
UPDATE: 'UPDATE';
USE: 'USE';
VALUES: 'VALUES';
VARCHAR: 'VARCHAR';
WHEN: 'WHEN';
WHERE: 'WHERE';

QUOTED: '\'' ('\'\'' | ~'\'')* '\'';

EQUALS: '=';
NOT_EQUALS: '!=';
SEMICOLON: ';';
COMMA: ',';
OPEN: '(';
CLOSE: ')';
VARIABLE: '@' NAME;
NAME:
    ( LETTER | '#' | '_' ) ( LETTER | NUMBER | '#' | '_' | '.' )*
    ;
NUMBER: DIGIT+;

fragment LETTER: 'a'..'z' | 'A'..'Z';
fragment DIGIT: '0'..'9';
SPACE
    :
    ( ' ' | '\t' | '\n' | '\r' )+
    { skip(); }
    ;

SqlServerDialectLexer.g

lexer grammar SqlServerDialectLexer;

import A;

AND: 'AND';
BIGINT: 'BIGINT';
BIT: 'BIT';
CASE: 'CASE';
CHAR: 'CHAR';
COUNT: 'COUNT';
CREATE: 'CREATE';
CURRENT_TIMESTAMP: 'CURRENT_TIMESTAMP';
DATETIME: 'DATETIME';
DECLARE: 'DECLARE';
ELSE: 'ELSE';
END: 'END';
FLOAT: 'FLOAT';
FROM: 'FROM';
GO: 'GO';
IMAGE: 'IMAGE';
INNER: 'INNER';
INSERT: 'INSERT';
INT: 'INT';
INTO: 'INTO';
IS: 'IS';
JOIN: 'JOIN';
NOT: 'NOT';
NULL: 'NULL';
NUMERIC: 'NUMERIC';
NVARCHAR: 'NVARCHAR';
ON: 'ON';
OR: 'OR';

它编译得很好：

java -cp antlr-3.3.jar org.antlr.Tool SqlServerDialectLexer.g 
javac -cp antlr-3.3.jar *.java

如您所见，在“top-lexer”上调用org.antlr.Tool就足够了：ANTLR 自动为导入的语法生成类。 如果您要导入更多语法，请执行以下操作：

import A, B, C;

编辑

Gunther 是正确的：改变QUOTED规则就足够了。 不过我会留下我的答案，因为当您要添加更多关键字或添加很多解析器规则（SQL 语法不可避免）时，您很可能会再次偶然发现“代码太大”错误。 在这种情况下，您可以使用我提出的解决方案。

如果您要接受答案，请接受 Gunther 的。

Answer 3

唔。 我不认为您可以使用导入语句将其进一步分解为单独的文件？

显然有人写了一个后处理器来自动拆分，但我还没有尝试过。

为什么我的 antlr 词法分析器 java class “代码太大”？

问题描述

3 个解决方案

解决方案1
6 已采纳 2011-06-09 11:27:39

解决方案2
5 2011-06-08 20:12:47

银

SqlServerDialectLexer.g

编辑

解决方案3
0 2011-06-08 19:27:58

为什么我的 antlr 词法分析器 java class “代码太大”？

问题描述

3 个解决方案

解决方案1 6 已采纳 2011-06-09 11:27:39

解决方案2 5 2011-06-08 20:12:47

银

SqlServerDialectLexer.g

编辑

解决方案3 0 2011-06-08 19:27:58

解决方案1
6 已采纳 2011-06-09 11:27:39

解决方案2
5 2011-06-08 20:12:47

解决方案3
0 2011-06-08 19:27:58