简体   繁体   English

是否应该从 Rasa NLU 训练数据中删除标点符号?

[英]Should punctuation be removed from Rasa NLU training data?

在 NLU 训练数据中,意图的话语中的标点符号(逗号、撇号、问号、大写字母等)是否应该保持原样、删除,还是根本不重要?

The training data can be left with punctuation and the WhitespaceTokenizer ( documentation link ) will clean it up.训练数据可以留下标点符号, WhitespaceTokenizer文档链接)会清理它。 Not all punctuations are cleaned up though!并非所有标点符号都被清理干净! You can see the regex used in the tokenizer on Github .您可以在Github上查看标记器中使用的正则表达式。

So for your mentioned punctuation like commas, apostrophes, question marks, etc. you can leave it there and the tokenizer will handle it.因此,对于您提到的标点符号,如逗号、撇号、问号等,您可以将其留在那里,分词器会处理它。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM