[英]what are the correct steps for text data pre-processing
我正在研究一個 Airbnb 數據集,以在給定交通信息(文本數據)的情況下預測客戶的評論分數(分數范圍從 0 到 100)。
一個典型的交通信息是:如果您前往市中心或更遠的地方探索,便利的巴士站就在街區的下方。 Zip 汽車也戰略性地位於安妮女王山上。
我是數據科學的新手!
以下是我正在使用的數據預處理步驟。 誰能告訴我他們是否正確?
訓練數據的預處理步驟:
tfidf = TfidfVectorizer()
train_X = tfidf.fit_transform(train_X)
測試數據的預處理步驟:
test_X = tfidf.transform(test_X)
謝謝!
您好,歡迎來到論壇:我可以添加一些:
如果這回答了您的問題,請不要忘記按我的答案左側的復選標記按鈕以接受它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.