[英]How to classify unlabelled data?
我是機器學習的新手。 我正在嘗試建立一個將文本分類為具有url或沒有url的分類器。 數據未標記。 我只有文字數據。 我不知道該如何進行。 任何幫助或示例表示贊賞。
由於是文本,因此可以使用bag of words
技術創建矢量。
您可以使用cosine similarity
來聚類普通類型的文本。
然后使用分類器,這取決於群集的數量。
這樣,您就可以得到帶有標簽的訓練集。
One vs Rest
技術訓練多個邏輯模型。 最后,您可以使用k倍交叉驗證來測試模型。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.