[英]How to handle numbers embedded in text during NLP pre-processing?
我正在嘗試在新聞文章數據集上運行 LDA 算法。 我知道在預處理步驟中必須刪除數字,並且我編寫了一個簡單的正則表達式代碼來用空格替換數字。
df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)
但是,我想保留一些數字,因為刪除它們可能會改變上下文/主題。 例如,
[期望]“第四次工業革命也被稱為工業 40 正在開始改變商品的生產方式”
[錯誤]“第四次工業革命也被稱為工業正在開始改變商品的生產方式”
注意:作為預處理的一部分,示例中的標點符號已被刪除
所以,我想知道:
有時在類似情況下所做的是將數字替換為虛擬標記,例如<NUMBER>
,以便保留原始文本中有數字的事實,但不會干擾句法上下文。 實際值通常對於概括而言並不那么重要。
如果您想保留具體數字(例如“行業 40”),那么我想您需要調整正則表達式以保持這些模式。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.