[英]Whats a good way to match text to sets of keywords (NLP)
我正在嘗試將輸入文本(例如新聞文章的標題)與關鍵字集相匹配,可以選擇最匹配的集。
讓我們假設,我有一些關鍵字集:
[['democracy', 'votes', 'democrats'], ['health', 'corona', 'vaccine', 'pandemic'], ['security', 'police', 'demonstration']]
作為輸入(假設的)標題: New Pfizer vaccine might beat COVID-19 pandemic in the next few months.
. 顯然,它非常適合第二組關鍵字。
精確匹配單詞是一種方法,但可能會出現更復雜的情況,為此使用單詞的基本形式(例如, duck
代替ducks
,或run
代替running
)來增強算法可能是有意義的。 現在我們已經在談論 NLP。
我嘗試使用Spacy詞和文檔嵌入(示例)來確定標題和每組關鍵字之間的相似性。 計算完整句子和有限數量的關鍵字之間的文檔相似度是個好主意嗎? 還有其他方法嗎?
對於這樣的任務,沒有一種正確的解決方案。 你必須嘗試什么適合你的問題!
我能想到的解決您問題的可能方法:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.