簡體   English   中英

NLP預處理過程中如何處理文本中嵌入的數字?

[英]How to handle numbers embedded in text during NLP pre-processing?

我正在嘗試在新聞文章數據集上運行 LDA 算法。 我知道在預處理步驟中必須刪除數字,並且我編寫了一個簡單的正則表達式代碼來用空格替換數字。

df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)

但是,我想保留一些數字,因為刪除它們可能會改變上下文/主題。 例如,

[期望]“第四次工業革命也被稱為工業 40 正在開始改變商品的生產方式”

[錯誤]“第四次工業革命也被稱為工業正在開始改變商品的生產方式”

注意:作為預處理的一部分,示例中的標點符號已被刪除

所以,我想知道:

  1. 在運行 LDA 之前可以保留基本數字嗎?
  2. 如何選擇性地刪除數字或處理上述情況?

有時在類似情況下所做的是將數字替換為虛擬標記,例如<NUMBER> ,以便保留原始文本中有數字的事實,但不會干擾句法上下文。 實際值通常對於概括而言並不那么重要。

如果您想保留具體數字(例如“行業 40”),那么我想您需要調整正則表達式以保持這些模式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM