[英]How to classify unlabelled data?
I am new to Machine Learning. 我是机器学习的新手。 I am trying to build a classifier that classifies the text as having a url or not having a url. 我正在尝试建立一个将文本分类为具有url或没有url的分类器。 The data is not labelled. 数据未标记。 I just have textual data. 我只有文字数据。 I don't know how to proceed with it. 我不知道该如何进行。 Any help or examples is appreciated. 任何帮助或示例表示赞赏。
Good luck! 祝好运!
Since it's text, you can use bag of words
technique to create vectors. 由于是文本,因此可以使用bag of words
技术创建矢量。
You can use cosine similarity
to cluster the common type text. 您可以使用cosine similarity
来聚类普通类型的文本。
Then use classifier, which would depend on number of clusters. 然后使用分类器,这取决于群集的数量。
This way you have a labeled training set. 这样,您就可以得到带有标签的训练集。
One vs Rest
technique. 或使用One vs Rest
技术训练多个逻辑模型。 Lastly, you can test your model using k-fold cross validation. 最后,您可以使用k倍交叉验证来测试模型。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.