繁体   English   中英

预测文件的分数?

[英]Predict scores for documents?

我有一组文档及其相应的分数,与SO上的赞成/反对数非常相似。 我想建立一个能够预测给定文档分数的系统。 一些用于回归的机器学习方法,以及用于从文档中派生有用功能的自然语言处理技术可能会有所帮助。

是否有解决此问题的最新方法? 我在Google学术搜索中进行了一些搜索,但未找到满意的结果。

谢谢。

预测答案的质量或有用性仍然非常困难。 这些算法与其他机器学习问题没有什么不同:人们只是在使用基于标准回归的技术。 这实际上归结为许多功能提取。 例如,要预测新闻聚合器(如reddit或digg)上某故事的投票数,您可能需要查看帖子的主题是否与趋势新闻故事有关。 如果趋势结束了,它可能不会获得很多选票。

您将不得不创造性地研究在您所使用的领域中哪些功能将是有用的。您可以尝试诸如作者使用的语言的复杂性之类的事情。 您可以通过每个句子的平均单词数,一个单词的平均长度或文档中单词的总数来衡量。 您可以尝试通过拼写检查器运行它:可能会误认为带有很多拼写错误的文档。

在Google学术搜索中可以搜索以下几个研究领域:

  • 自动作文评分
  • 预测Digg故事的受欢迎程度
  • 预测一条推文将获得的转发数

最近在kaggle.com上也进行了几次有关此主题的数据科学竞赛。 用户论坛通常会提供有关如何处理这些问题的非常好的信息。 这是一篇关于自动作文评分的文章

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM