[英]Should punctuation be removed from Rasa NLU training data?
在 NLU 训练数据中,意图的话语中的标点符号(逗号、撇号、问号、大写字母等)是否应该保持原样、删除,还是根本不重要?
The training data can be left with punctuation and the WhitespaceTokenizer
( documentation link ) will clean it up.训练数据可以留下标点符号,
WhitespaceTokenizer
( 文档链接)会清理它。 Not all punctuations are cleaned up though!并非所有标点符号都被清理干净! You can see the regex used in the tokenizer on Github .
您可以在Github上查看标记器中使用的正则表达式。
So for your mentioned punctuation like commas, apostrophes, question marks, etc. you can leave it there and the tokenizer will handle it.因此,对于您提到的标点符号,如逗号、撇号、问号等,您可以将其留在那里,分词器会处理它。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.