簡體   English   中英

使用NLP /語義相似度從大型文檔中提取與一組預定義准則相關的關鍵字的方法

[英]Methods to extract keywords from large documents that are relevant to a set of predefined guidelines using NLP/ Semantic Similarity

我需要有關如何從大型文檔中提取關鍵字的建議。 關鍵字應與我們定義為預期搜索結果的內容內聯。

例如,

我需要所有者的名字,辦公室的位置,給與公司的文件時,經營行業是什么,定義的詞組是:

{所有者,董事,辦公室,行業...}-(1)

預期的輸出必須是這樣的,

{史密斯·詹姆斯先生,大街,金融銀行}-(2)

我正在尋找一種與語義相似性相關的方法,該方法將提取包含類似於給定語料庫(1)的單詞的句子,並使用POS標記從這些句子中提取名詞。

如果可以提供更多支持該方法的資源,那將很有用。

您要執行的操作稱為“ 命名實體識別”

在Python中,有一個流行的名為SpaCy的庫可以用於此目的。 標准模型能夠檢測到18種不同的實體類型 ,這是相當不錯的數量。

個人和公司名稱應易於提取,而整個地址和整個行業可能會更困難。 也許您必須在這些實體類型上訓練自己的模型。 SpaCy還提供用於訓練自己的模型的API。 請注意,您需要大量的培訓數據才能獲得不錯的結果。 從每種實體類型的1000個示例開始,然后看它是否足以滿足您的需求。 POS可以用作功能。

如果您的數據是非結構化的,則這可能是最合適的方法之一。 如果您擁有更多的結構化數據,則可以利用它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM