簡體   English   中英

關鍵字提取如何工作?

[英]How does keyword extraction works?

我用以下文本測試了來自IBM的Natural Language了解服務的關鍵字提取:

Desarrollo PDA。 調整PDA。 Nuevo模數PDA。 調整PDA模數。 沒有sincroniza PDA。 PDA模錯誤。

我得到以下回應:

  • pda的模數相關度為98.31%
  • 調整具有64.44%相關性的模數pda
  • 具有64.34相關性的新模PDA pda

現在我的問題是,為什么“ modulo pda”關鍵字的相關性為98.31%,而不僅僅是具有較高相關性的“ PDA”? 我到處都在搜索IBM如何工作而無濟於事。

用於提取關鍵字並為其評分的實際算法將是公司專有的配方,我不希望它們將其公開。 但是您可以找到很多關於該主題的研究論文,但通常最終的商業產品將包含各種不同技術的組合以獲得最佳結果。

您可以比較來自不同產品(例如IBM,Google,Amazon)的不同NLU服務,並比較結果。

專門針對您的查詢,您嘗試從單個文檔中提取關鍵字或主題。 PDA出現在文檔中的每個句子中。 如果我們使用諸如TF-IDF之類的簡單技術,其中每個句子都是一個文檔,則PDA單詞的TF-IDF = 0,因為它出現在每個句子中,並且變得無關緊要,因為它沒有為總體主題或文檔重要性添加信息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM