將文本與關鍵字集 (NLP) 匹配的好方法是什么

Question

我正在嘗試將輸入文本（例如新聞文章的標題）與關鍵字集相匹配，可以選擇最匹配的集。

讓我們假設，我有一些關鍵字集：

[['democracy', 'votes', 'democrats'], ['health', 'corona', 'vaccine', 'pandemic'], ['security', 'police', 'demonstration']]

作為輸入（假設的）標題： New Pfizer vaccine might beat COVID-19 pandemic in the next few months. . 顯然，它非常適合第二組關鍵字。

精確匹配單詞是一種方法，但可能會出現更復雜的情況，為此使用單詞的基本形式（例如， duck代替ducks ，或run代替running ）來增強算法可能是有意義的。 現在我們已經在談論 NLP。

我嘗試使用Spacy詞和文檔嵌入（示例）來確定標題和每組關鍵字之間的相似性。 計算完整句子和有限數量的關鍵字之間的文檔相似度是個好主意嗎？ 還有其他方法嗎？

Answer 1

對於這樣的任務，沒有一種正確的解決方案。 你必須嘗試什么適合你的問題！

我能想到的解決您問題的可能方法：