繁体   English   中英

NLP预处理过程中如何处理文本中嵌入的数字?

[英]How to handle numbers embedded in text during NLP pre-processing?

我正在尝试在新闻文章数据集上运行 LDA 算法。 我知道在预处理步骤中必须删除数字,并且我编写了一个简单的正则表达式代码来用空格替换数字。

df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)

但是,我想保留一些数字,因为删除它们可能会改变上下文/主题。 例如,

[期望]“第四次工业革命也被称为工业 40 正在开始改变商品的生产方式”

[错误]“第四次工业革命也被称为工业正在开始改变商品的生产方式”

注意:作为预处理的一部分,示例中的标点符号已被删除

所以,我想知道:

  1. 在运行 LDA 之前可以保留基本数字吗?
  2. 如何选择性地删除数字或处理上述情况?

有时在类似情况下所做的是将数字替换为虚拟标记,例如<NUMBER> ,以便保留原始文本中有数字的事实,但不会干扰句法上下文。 实际值通常对于概括而言并不那么重要。

如果您想保留具体数字(例如“行业 40”),那么我想您需要调整正则表达式以保持这些模式。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM