繁体 English 中英

预测文件的分数？

[英]Predict scores for documents?

原文 2013-05-20 14:17:51 6 1 machine-learning/ nlp

我有一组文档及其相应的分数，与SO上的赞成/反对数非常相似。 我想建立一个能够预测给定文档分数的系统。 一些用于回归的机器学习方法，以及用于从文档中派生有用功能的自然语言处理技术可能会有所帮助。

是否有解决此问题的最新方法？ 我在Google学术搜索中进行了一些搜索，但未找到满意的结果。

谢谢。

1 个解决方案

预测答案的质量或有用性仍然非常困难。 这些算法与其他机器学习问题没有什么不同：人们只是在使用基于标准回归的技术。 这实际上归结为许多功能提取。 例如，要预测新闻聚合器（如reddit或digg）上某故事的投票数，您可能需要查看帖子的主题是否与趋势新闻故事有关。 如果趋势结束了，它可能不会获得很多选票。

您将不得不创造性地研究在您所使用的领域中哪些功能将是有用的。您可以尝试诸如作者使用的语言的复杂性之类的事情。 您可以通过每个句子的平均单词数，一个单词的平均长度或文档中单词的总数来衡量。 您可以尝试通过拼写检查器运行它：可能会误认为带有很多拼写错误的文档。

在Google学术搜索中可以搜索以下几个研究领域：

自动作文评分
预测Digg故事的受欢迎程度
预测一条推文将获得的转发数

最近在kaggle.com上也进行了几次有关此主题的数据科学竞赛。 用户论坛通常会提供有关如何处理这些问题的非常好的信息。 这是一篇关于自动作文评分的文章。

语料库中单个类别文档的“组合” TF-IDF分数

[英]“Combine” TF-IDF scores for single class of documents within corpus

如何使用sklearn的矩阵分解来预测新用户的推荐分数

[英]How to use sklearn's Matrix factorization to predict new users' recommendation scores

使用 cross_val_predict 与 cross_val_score 时，scikit-learn 分数不同

[英]scikit-learn scores are different when using cross_val_predict vs cross_val_score

cross_val_predict之后对新文档进行分类

[英]Classifying new documents after cross_val_predict

Spark 2.1.1：如何在 Spark 2.1.1 中已训练的 LDA 模型上预测未见文档中的主题？

[英]Spark 2.1.1: How to predict topics in unseen documents on already trained LDA model in Spark 2.1.1?

[英]Predict Logistf

SVM分数-上限？

[英]SVM Scores - Upper Bound?

非常低的回归分数和超低的分类分数

[英]Very low Regression scores and ultra low Classification scores

RandomForest多类多输出分数？

[英]RandomForest multiclass-multioutput Scores?

knn 分数的 python 次迭代出现问题

[英]Trouble with python iteration of knn scores

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 语料库中单个类别文档的“组合” TF-IDF分数如何使用sklearn的矩阵分解来预测新用户的推荐分数使用 cross_val_predict 与 cross_val_score 时，scikit-learn 分数不同 cross_val_predict之后对新文档进行分类 Spark 2.1.1：如何在 Spark 2.1.1 中已训练的 LDA 模型上预测未见文档中的主题？预测Logistf SVM分数-上限？非常低的回归分数和超低的分类分数 RandomForest多类多输出分数？ knn 分数的 python 次迭代出现问题

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM