繁体   English   中英

关键字提取如何工作?

[英]How does keyword extraction works?

我用以下文本测试了来自IBM的Natural Language了解服务的关键字提取:

Desarrollo PDA。 调整PDA。 Nuevo模数PDA。 调整PDA模数。 没有sincroniza PDA。 PDA模错误。

我得到以下回应:

  • pda的模数相关度为98.31%
  • 调整具有64.44%相关性的模数pda
  • 具有64.34相关性的新模PDA pda

现在我的问题是,为什么“ modulo pda”关键字的相关性为98.31%,而不仅仅是具有较高相关性的“ PDA”? 我到处都在搜索IBM如何工作而无济于事。

用于提取关键字并为其评分的实际算法将是公司专有的配方,我不希望它们将其公开。 但是您可以找到很多关于该主题的研究论文,但通常最终的商业产品将包含各种不同技术的组合以获得最佳结果。

您可以比较来自不同产品(例如IBM,Google,Amazon)的不同NLU服务,并比较结果。

专门针对您的查询,您尝试从单个文档中提取关键字或主题。 PDA出现在文档中的每个句子中。 如果我们使用诸如TF-IDF之类的简单技术,其中每个句子都是一个文档,则PDA单词的TF-IDF = 0,因为它出现在每个句子中,并且变得无关紧要,因为它没有为总体主题或文档重要性添加信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM