簡體   English   中英

使用WordNet確定兩個文本之間的語義相似度?

[英]Using WordNet to determine semantic similarity between two texts?

如何使用WordNet確定python中兩個文本之間的語義相似度?

明顯的預處理將是刪除停止詞和詞干,但那又是什么?

我能想到的唯一方法是計算兩個文本中每個單詞之間的WordNet路徑距離。 這是unigrams的標准。 但這些是大型(400字)文本,即自然語言文檔,其中的單詞不具有任何特定順序或結構(除英語語法強加的單詞外)。 那么,你會在文本之間比較哪些詞? 你會如何在python中做到這一點?

你能做的一件事是:

  1. 殺掉停止的話
  2. 找到盡可能多的單詞,其中同義詞和反義詞的最大交叉點與同一文檔中的其他單詞的交叉點。 我們稱之為“重要的話語”
  3. 檢查每個文檔的重要單詞集是否相同。 它們越接近,文檔的語義就越相似。

還有另一種方式。 從每個doc中的句子中計算句子樹。 然后比較兩個森林。 很久以前,我為一門課程做過類似的工作。 這是代碼 (請記住這是很久以前的事情,而且是為了上課。所以代碼非常hacky,至少可以說)。

希望這可以幫助

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM