繁体   English   中英

如何创建训练集? -文字分类

[英]How to create training set? - Text classification

我喜欢创建一个文本分类器,将音乐歌词分类到其相关类别。 在阅读了一些相关研究之后,他们说,首先,我们需要通过手动使用一些文档来创建训练集。 但是,那真的是手动的吗? 我的意思是,我们是否在没有指导或某种技巧的情况下将训练集文档分组? 我确实需要有关此主题的明确解释或建议。 谢谢。

您可以将样本集分为训练集和测试集。 例如,您可以将70%的样本用作训练集,而将剩余30%的样本用作测试集。 如果应该随机进行。

就像您想在该问题上应用机器学习技术。 就是说,您有一组源自歌词的功能(例如,关键词频率或类似频率,尽管我从未处理过此特定问题),这些功能已映射到某些标签(Pop,Rock等)。

现在,机器学习算法需要一些参考分类,因为它不知道流行歌曲比摇滚歌曲中出现的单词更多。

不管它们来自何处,都可以从图表列表中进行分类(流行音乐图表,摇滚音乐图表等),例如,从每个图表中获取歌曲列表,然后将歌词和相应的标签一起提供给学习者。 在这种情况下,结果将是一个预测模型,其中将在其中显示新歌曲的图表中。

或者,您可以手动定义训练集以及歌词和标签。 这完全取决于您想学习什么。 如果您打算创建自己的个性化库,则使用手动定义的测试用例是有意义的。 如果要测试算法或类似算法,请使用一些易于访问的数据,例如图表。 在这种情况下,您将尝试学习“黑匣子”方法,该方法决定了某首歌曲属于哪个图表(例如,创建购物车列表的人的音乐品味)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM