簡體 English 中英

使用NLP /語義相似度從大型文檔中提取與一組預定義准則相關的關鍵字的方法

[英]Methods to extract keywords from large documents that are relevant to a set of predefined guidelines using NLP/ Semantic Similarity

原文 2018-09-26 13:54:41 4 1 python/ nlp/ semantics/ similarity/ wordnet

我需要有關如何從大型文檔中提取關鍵字的建議。 關鍵字應與我們定義為預期搜索結果的內容內聯。

例如，

我需要所有者的名字，辦公室的位置，給與公司的文件時，經營行業是什么，定義的詞組是：

{所有者，董事，辦公室，行業...}-（1）

預期的輸出必須是這樣的，

{史密斯·詹姆斯先生，大街，金融銀行}-（2）

我正在尋找一種與語義相似性相關的方法，該方法將提取包含類似於給定語料庫（1）的單詞的句子，並使用POS標記從這些句子中提取名詞。

如果可以提供更多支持該方法的資源，那將很有用。

1 個解決方案

您要執行的操作稱為“ 命名實體識別” 。

在Python中，有一個流行的名為SpaCy的庫可以用於此目的。 標准模型能夠檢測到18種不同的實體類型，這是相當不錯的數量。

個人和公司名稱應易於提取，而整個地址和整個行業可能會更困難。 也許您必須在這些實體類型上訓練自己的模型。 SpaCy還提供用於訓練自己的模型的API。 請注意，您需要大量的培訓數據才能獲得不錯的結果。 從每種實體類型的1000個示例開始，然后看它是否足以滿足您的需求。 POS可以用作功能。

如果您的數據是非結構化的，則這可能是最合適的方法之一。 如果您擁有更多的結構化數據，則可以利用它。

使用 BERT 或 LSTM 模型的大型文檔語義相似性的最佳方法

[英]Best approach for semantic similarity in large documents using BERT or LSTM models

如何使用 Python NLP 從數據庫表中提取與搜索字符串中的關鍵字匹配的關鍵字

[英]How to Extract Keywords from a Database Table that are matching with the Keywords in search string using Python NLP

如何使用 Python 從文章中提取相關信息？自然語言處理+正則表達式？

[英]How to extract relevant information from article using Python? NLP+RegEX?

從用於 NLP 的非結構化醫學文檔中提取文本

[英]Extract Text From Unstructured Medical Documents For NLP

從輸入的 NLP 句子中提取關鍵字的最佳方法

[英]Best way to extract keywords from input NLP sentence

如何使用 NLP 通過語義相似性對多個句子進行分組

[英]How can I use NLP to group multiple senteces by semantic similarity

使用NLP從文本中提取關聯的值

[英]Extract associated values from text using NLP

NLP：從關鍵字生成文本 (NLG)

[英]NLP: Generate Text from keywords (NLG)

使用來自 tsfresh 的 extract_(relevant_) 特征的（鑄造）錯誤

[英](Casting) errors using extract_(relevant_)features from tsfresh

使用python從PDF文件中提取相關文本

[英]Extract relevant text from PDF files using python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 BERT 或 LSTM 模型的大型文檔語義相似性的最佳方法如何使用 Python NLP 從數據庫表中提取與搜索字符串中的關鍵字匹配的關鍵字如何使用 Python 從文章中提取相關信息？自然語言處理+正則表達式？從用於 NLP 的非結構化醫學文檔中提取文本從輸入的 NLP 句子中提取關鍵字的最佳方法如何使用 NLP 通過語義相似性對多個句子進行分組使用NLP從文本中提取關聯的值 NLP：從關鍵字生成文本 (NLG) 使用來自 tsfresh 的 extract_(relevant_) 特征的（鑄造）錯誤使用python從PDF文件中提取相關文本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM