簡體   English   中英

文本數據預處理的正確步驟是什么

[英]what are the correct steps for text data pre-processing

我正在研究一個 Airbnb 數據集,以在給定交通信息(文本數據)的情況下預測客戶的評論分數(分數范圍從 0 到 100)。

一個典型的交通信息是:如果您前往市中心或更遠的地方探索,便利的巴士站就在街區的下方。 Zip 汽車也戰略性地位於安妮女王山上。

我是數據科學的新手!

以下是我正在使用的數據預處理步驟 誰能告訴我他們是否正確?

訓練數據的預處理步驟:

  1. 轉換為小寫
  2. 刪除標點符號
  3. 刪除停用詞
  4. 刪除從數據探索中識別出的常見/稀有詞
  5. 拼寫更正
  6. 詞形還原
  7. 使用以下代碼計算 tf-idf 向量:
   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

測試數據的預處理步驟:

  1. 轉換為小寫
  2. 刪除標點符號
  3. 刪除停用詞
  4. 拼寫更正
  5. 詞形還原
  6. 使用以下代碼計算 tf-idf 向量:
   test_X = tfidf.transform(test_X)

謝謝!

您好,歡迎來到論壇:我可以添加一些:

  • 將所有數字轉換為它們的單詞等價物(以避免有一些數字和一些單詞)。 您也可以使用正則表達式將所有數字轉換為特殊單詞,如 NUM。
  • 擴展縮寫。 也許一個用戶使用了 HH.RR 和另一個,人力資源。
  • Stemming:即從一個單詞中去除詞綴(后綴、前綴、中綴、環綴)以獲得詞干(例如eat --> eat
  • 如果適用,去除多余的空格
  • 刪除“the”、“and”、“a”等“停用詞”,以及評論中最常用的詞。 因此,首先檢查文本中單詞的分布,並將頂部(無意義)的單詞過濾掉。
  • 刪除頁眉、頁腳、HTML 標簽等噪音。

如果這回答了您的問題,請不要忘記按我的答案左側的復選標記按鈕以接受它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM