簡體 English 中英

如何對未標記的數據進行分類？

[英]How to classify unlabelled data?

原文 2019-04-08 15:02:18 7 2 python/ machine-learning/ classification

我是機器學習的新手。 我正在嘗試建立一個將文本分類為具有url或沒有url的分類器。 數據未標記。 我只有文字數據。 我不知道該如何進行。 任何幫助或示例表示贊賞。

2 個解決方案

您無法使用未標記的數據訓練分類器。 您需要標記的示例。 有一些服務可以為您貼上標簽，但是手工操作可能會更簡單（我想您每分鍾可以完成一次）。
堆棧溢出用於編程； 例如，“ 交叉驗證”更適合該問題。 也許他們會比我有更好的建議。
在為數據加標簽后，網絡上有很多關於此主題的信息-例如，如果您已經對此問題有所了解，那么此博客是一個不錯的起點。

祝好運！

由於是文本，因此可以使用bag of words技術創建矢量。

您可以使用cosine similarity來聚類普通類型的文本。
然后使用分類器，這取決於群集的數量。
這樣，您就可以得到帶有標簽的訓練集。
- 如果您有兩個集群，則像邏輯回歸這樣的二進制分類器將起作用。
- 如果您有多個類別，則需要基於多項邏輯回歸訓練模型
- 或使用One vs Rest技術訓練多個邏輯模型。
最后，您可以使用k倍交叉驗證來測試模型。

如何將我的 PCA 結果應用於未標記的數據？

[英]How can I implement my PCA results to my unlabelled data?

如何將字符串數據分類為整數？

[英]How to classify String Data into Integers?

如何對看不見的文本數據進行分類？

[英]How to classify unseen text data?

如何對weka中的不平衡數據進行分類？

[英]How to classify imbalanced data in weka?

Python Spark Databricks二進制分類教程 - 如何預測未標記數據？

[英]Python Spark Databricks binary classification tutorial - How to make prediction for unlabelled data?

Kaggle：在 CNN 中處理額外的未標記測試數據

[英]Kaggle: Dealing with extra unlabelled test data in CNN

如何基於質心對數據立方體進行分類？

[英]How to classify a data cube based on centroids?

Matplotlib：如何對分散的值/數據進行分類 plot？

[英]Matplotlib: how to classify values/data in a scatter plot?

如何將未知/看不見的數據歸類為異常

[英]How to classify unknown/unseen data as anomaly

當測試數據中未給出目標值時如何分類數據

[英]how to classify data when target value is not given in testing data

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何將我的 PCA 結果應用於未標記的數據？如何將字符串數據分類為整數？如何對看不見的文本數據進行分類？如何對weka中的不平衡數據進行分類？ Python Spark Databricks二進制分類教程 - 如何預測未標記數據？ Kaggle：在 CNN 中處理額外的未標記測試數據如何基於質心對數據立方體進行分類？ Matplotlib：如何對分散的值/數據進行分類 plot？如何將未知/看不見的數據歸類為異常當測試數據中未給出目標值時如何分類數據

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM