簡體   English   中英

將文本與關鍵字集 (NLP) 匹配的好方法是什么

[英]Whats a good way to match text to sets of keywords (NLP)

我正在嘗試將輸入文本(例如新聞文章的標題)與關鍵字集相匹配,可以選擇最匹配的集。

讓我們假設,我有一些關鍵字集:

[['democracy', 'votes', 'democrats'], ['health', 'corona', 'vaccine', 'pandemic'], ['security', 'police', 'demonstration']]

作為輸入(假設的)標題: New Pfizer vaccine might beat COVID-19 pandemic in the next few months. . 顯然,它非常適合第二組關鍵字。

精確匹配單詞是一種方法,但可能會出現更復雜的情況,為此使用單詞的基本形式(例如, duck代替ducks ,或run代替running )來增強算法可能是有意義的。 現在我們已經在談論 NLP。

我嘗試使用Spacy詞和文檔嵌入(示例)來確定標題和每組關鍵字之間的相似性。 計算完整句子和有限數量的關鍵字之間的文檔相似度是個好主意嗎? 還有其他方法嗎?

相關:使用哪些 NLP 工具來匹配具有相似含義或語義的短語

對於這樣的任務,沒有一種正確的解決方案。 你必須嘗試什么適合你的問題!

我能想到的解決您問題的可能方法:

  • 匹配:精確或更詳細,例如引理/詞干或 Levensthein。
  • 嵌入相似性:我猜單詞相似性會優於文檔關鍵字相似性,但同樣,只需嘗試一下即可。
  • 分類:您的問題似乎是一個經典的分類問題,每個集合都是一個類。 如果您沒有足夠的標記訓練數據,您可以嘗試active-learning

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM