簡體   English   中英

從非結構化文本中提取鍵值的方法有哪些?

[英]What are the ways of Key-Value extraction from unstructured text?

我正在嘗試找出提取非結構化文本中預定義鍵的值的方法(以及哪種方法最好)?

輸入:

  1. 醫生給我開了一種叫法維吡韋的葯物。
  2. 他叫尤里。
  3. Ilya已經告訴過我。
  4. 今天天氣很冷。
  5. 我正在吃一種叫做納粹的葯物。

密鑰列表:['葯物','名稱','天氣']

輸出:

['drug = favipiravir','drug = nazivin','name = Yury','weather = Cold']

因此,如您所見,在3d句子中沒有顯式鍵“名稱”,因此也沒有提取任何值(我認為與NER有所不同)。 同時,“ drug”和“ medicine”是同義詞,我們應該將“ medicine”作為“ drug”鍵,並提取其值。

接下來的問題是,如果密鑰集是可變的,該怎么辦? 是否應該由於預定義的鍵而將其用作基礎正則表達式方法,還是可以通過監督學習/ NN來實現它? (但是在這種情況下,如何處理可變鍵?)

您可以使用解析器標記病房。 您的問題類似於命名實體識別。 許多庫都提供POS標記器。 您可以嘗試那些。 通常對它們進行培訓以識別名稱,位置等。根據您需要的單詞類型,您可能需要訓練解析器。 因此,您還需要一些標記數據。
查看此鏈接: https : //nlp.stanford.edu/software/CRF-NER.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM