簡體   English   中英

如何對未標記的數據進行分類?

[英]How to classify unlabelled data?

我是機器學習的新手。 我正在嘗試建立一個將文本分類為具有url或沒有url的分類器。 數據未標記。 我只有文字數據。 我不知道該如何進行。 任何幫助或示例表示贊賞。

  1. 您無法使用未標記的數據訓練分類器。 您需要標記的示例。 有一些服務可以為您貼上標簽,但是手工操作可能會更簡單(我想您每分鍾可以完成一次)。
  2. 堆棧溢出用於編程; 例如,“ 交叉驗證”更適合該問題。 也許他們會比我有更好的建議。
  3. 在為數據加標簽后,網絡上有很多關於此主題的信息-例如,如果您已經對此問題有所了解,那么此博客是一個不錯的起點。

祝好運!

由於是文本,因此可以使用bag of words技術創建矢量。

  • 您可以使用cosine similarity來聚類普通類型的文本。

  • 然后使用分類器,這取決於群集的數量。

  • 這樣,您就可以得到帶有標簽的訓練集。

    • 如果您有兩個集群,則像邏輯回歸這樣的二進制分類器將起作用。
    • 如果您有多個類別,則需要基於多項邏輯回歸訓練模型
    • 或使用One vs Rest技術訓練多個邏輯模型。
  • 最后,您可以使用k倍交叉驗證來測試模型。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM