[英]Using WordNet to determine semantic similarity between two texts?
如何使用WordNet確定python中兩個文本之間的語義相似度?
明顯的預處理將是刪除停止詞和詞干,但那又是什么?
我能想到的唯一方法是計算兩個文本中每個單詞之間的WordNet路徑距離。 這是unigrams的標准。 但這些是大型(400字)文本,即自然語言文檔,其中的單詞不具有任何特定順序或結構(除英語語法強加的單詞外)。 那么,你會在文本之間比較哪些詞? 你會如何在python中做到這一點?
你能做的一件事是:
還有另一種方式。 從每個doc中的句子中計算句子樹。 然后比較兩個森林。 很久以前,我為一門課程做過類似的工作。 這是代碼 (請記住這是很久以前的事情,而且是為了上課。所以代碼非常hacky,至少可以說)。
希望這可以幫助
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.