NLP預處理過程中如何處理文本中嵌入的數字？

Question

我正在嘗試在新聞文章數據集上運行 LDA 算法。 我知道在預處理步驟中必須刪除數字，並且我編寫了一個簡單的正則表達式代碼來用空格替換數字。

df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)

但是，我想保留一些數字，因為刪除它們可能會改變上下文/主題。 例如，

[期望]“第四次工業革命也被稱為工業 40 正在開始改變商品的生產方式”

[錯誤]“第四次工業革命也被稱為工業正在開始改變商品的生產方式”

注意：作為預處理的一部分，示例中的標點符號已被刪除

所以，我想知道：

Answer 1

有時在類似情況下所做的是將數字替換為虛擬標記，例如<NUMBER> ，以便保留原始文本中有數字的事實，但不會干擾句法上下文。 實際值通常對於概括而言並不那么重要。

如果您想保留具體數字（例如“行業 40”），那么我想您需要調整正則表達式以保持這些模式。