NLP预处理过程中如何处理文本中嵌入的数字？

Question

我正在尝试在新闻文章数据集上运行 LDA 算法。 我知道在预处理步骤中必须删除数字，并且我编写了一个简单的正则表达式代码来用空格替换数字。

df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)

但是，我想保留一些数字，因为删除它们可能会改变上下文/主题。 例如，

[期望]“第四次工业革命也被称为工业 40 正在开始改变商品的生产方式”

[错误]“第四次工业革命也被称为工业正在开始改变商品的生产方式”

注意：作为预处理的一部分，示例中的标点符号已被删除

所以，我想知道：

Answer 1

有时在类似情况下所做的是将数字替换为虚拟标记，例如<NUMBER> ，以便保留原始文本中有数字的事实，但不会干扰句法上下文。 实际值通常对于概括而言并不那么重要。

如果您想保留具体数字（例如“行业 40”），那么我想您需要调整正则表达式以保持这些模式。