如何從 CSV 文件訓練和測試一個簡單的二元分類器？

Question

我用推文 bigram 創建了一個下面的 CSV 文件，我想訓練一個模型來預測標簽。 我在網上找到的大多數示例都包含帶有附加參數的數值特征，這使得它們難以理解。 在這里，我問了一個非常簡單的例子，以了解究竟應該用 python（使用 scikit-learn 之類的庫）來訓練和測試這個最簡單的 CSV 數據集的分類模型（任何模型）。

bigram, label
I love, 0
love you, 0
I hate, 1
hate you, 1
...

我希望這篇文章也能幫助其他機器學習初學者。

Answer 1

您正在嘗試解決 NLP 問題。 典型的機器學習算法不適用於文本。 您需要將此文本轉換為數字。 Python Spacy 或 NLTK 庫旨在解決這個問題。 通常它會創建一個單詞詞匯表，每個單詞都會被分配一個數字。 這意味着輸入將連接到數字列表，並且可以應用算法。

Answer 2

這是示例代碼，但是，還有更多內容。

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC

# Naïve Bayes:
text_clf_nb = Pipeline([('tfidf', TfidfVectorizer()),
                     ('clf', MultinomialNB()),
])

text_clf_nb.fit(X_train, y_train)

predictions = text_clf_nb.predict(X_test)

如何從 CSV 文件訓練和測試一個簡單的二元分類器？

問題描述

2 個解決方案

解決方案1
1 2020-10-27 15:23:05

解決方案2
0 2020-10-27 19:40:47

如何從 CSV 文件訓練和測試一個簡單的二元分類器？

問題描述

2 個解決方案

解決方案1 1 2020-10-27 15:23:05

解決方案2 0 2020-10-27 19:40:47

解決方案1
1 2020-10-27 15:23:05

解決方案2
0 2020-10-27 19:40:47