簡體 English 中英

文本數據預處理的正確步驟是什么

[英]what are the correct steps for text data pre-processing

原文 2020-05-14 09:06:49 9 1 python/ text/ data-science

我正在研究一個 Airbnb 數據集，以在給定交通信息（文本數據）的情況下預測客戶的評論分數（分數范圍從 0 到 100）。

一個典型的交通信息是：如果您前往市中心或更遠的地方探索，便利的巴士站就在街區的下方。 Zip 汽車也戰略性地位於安妮女王山上。

我是數據科學的新手！

以下是我正在使用的數據預處理步驟。 誰能告訴我他們是否正確？

訓練數據的預處理步驟：

轉換為小寫
刪除標點符號
刪除停用詞
刪除從數據探索中識別出的常見/稀有詞
拼寫更正
詞形還原
使用以下代碼計算 tf-idf 向量：

   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

測試數據的預處理步驟：

轉換為小寫
刪除標點符號
刪除停用詞
拼寫更正
詞形還原
使用以下代碼計算 tf-idf 向量：

   test_X = tfidf.transform(test_X)

謝謝！

1 個解決方案

您好，歡迎來到論壇：我可以添加一些：

將所有數字轉換為它們的單詞等價物（以避免有一些數字和一些單詞）。 您也可以使用正則表達式將所有數字轉換為特殊單詞，如 NUM。
擴展縮寫。 也許一個用戶使用了 HH.RR 和另一個，人力資源。
Stemming：即從一個單詞中去除詞綴（后綴、前綴、中綴、環綴）以獲得詞干（例如eat --> eat ）
如果適用，去除多余的空格
刪除“the”、“and”、“a”等“停用詞”，以及評論中最常用的詞。 因此，首先檢查文本中單詞的分布，並將頂部（無意義）的單詞過濾掉。
刪除頁眉、頁腳、HTML 標簽等噪音。

如果這回答了您的問題，請不要忘記按我的答案左側的復選標記按鈕以接受它。

具有不同特征的數據預處理步驟

[英]Data pre-processing steps with different features

將預處理步驟捆綁到 Tensorflow SavedModel

[英]Bundle pre-processing steps to Tensorflow SavedModel

使用NLTK進行文本預處理

[英]Text Pre-processing with NLTK

Pandas 將列表列轉換為文本列數據預處理

[英]Pandas converting Column of Lists to Column of Text Data Pre-Processing

在這種情況下如何在Spark中進行數據預處理

[英]How to data pre-processing in Spark in this case

對網絡數據進行聚類的預處理

[英]pre-processing for clustering of network data

在 NLP 文本預處理中處理正則表達式時出錯

[英]Error while processing the regular expression in NLP text pre-processing

使用正則表達式刪除單詞中的空格 - 用於文本挖掘的預處理數據

[英]Deleting spaces within words with regex - pre-processing data for text mining

從 tensorflow lite model 推斷的正確預處理管道

[英]Correct pre-processing pipeline for inference from tensorflow lite model

對於與DBSCAN一起使用的時間戳，持續時間數據，我需要什么預處理方法？

[英]What pre-processing methods do I need for Timestamp, Duration data for use with DBSCAN?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 具有不同特征的數據預處理步驟將預處理步驟捆綁到 Tensorflow SavedModel 使用NLTK進行文本預處理 Pandas 將列表列轉換為文本列數據預處理在這種情況下如何在Spark中進行數據預處理對網絡數據進行聚類的預處理在 NLP 文本預處理中處理正則表達式時出錯使用正則表達式刪除單詞中的空格 - 用於文本挖掘的預處理數據從 tensorflow lite model 推斷的正確預處理管道對於與DBSCAN一起使用的時間戳，持續時間數據，我需要什么預處理方法？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM