[英]How to handle numbers embedded in text during NLP pre-processing?
我正在尝试在新闻文章数据集上运行 LDA 算法。 我知道在预处理步骤中必须删除数字,并且我编写了一个简单的正则表达式代码来用空格替换数字。
df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)
但是,我想保留一些数字,因为删除它们可能会改变上下文/主题。 例如,
[期望]“第四次工业革命也被称为工业 40 正在开始改变商品的生产方式”
[错误]“第四次工业革命也被称为工业正在开始改变商品的生产方式”
注意:作为预处理的一部分,示例中的标点符号已被删除
所以,我想知道:
有时在类似情况下所做的是将数字替换为虚拟标记,例如<NUMBER>
,以便保留原始文本中有数字的事实,但不会干扰句法上下文。 实际值通常对于概括而言并不那么重要。
如果您想保留具体数字(例如“行业 40”),那么我想您需要调整正则表达式以保持这些模式。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.