繁体   English   中英

NLP 使用替换令牌

[英]NLP using replacement tokens

我阅读了很多处理不同 NLP 分类任务的文章,我看到其中大多数在预处理部分指定他们使用替换标记:

例如,我们删除并用替换标记替换了 URL、表情符号和标点符号: <URL>, <EMOJI>, <PUNCT>

我对这个领域很陌生,我想知道是否有一些特殊的方法来处理这种令牌/标签? 是否有必要使用< >或者这只是表示这种替换并帮助分类器找到模式的一种方式?

任何帮助将不胜感激。

根据我所做的,在预处理部分,人们用数字替换所有标记(字符、词素、单词)。 这些替换标记也不过是数字<URL>只是将其呈现给人类的一种方式。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM