[英]What are the ways of Key-Value extraction from unstructured text?
我正在嘗試找出提取非結構化文本中預定義鍵的值的方法(以及哪種方法最好)?
輸入:
密鑰列表:['葯物','名稱','天氣']
輸出:
['drug = favipiravir','drug = nazivin','name = Yury','weather = Cold']
因此,如您所見,在3d句子中沒有顯式鍵“名稱”,因此也沒有提取任何值(我認為與NER有所不同)。 同時,“ drug”和“ medicine”是同義詞,我們應該將“ medicine”作為“ drug”鍵,並提取其值。
接下來的問題是,如果密鑰集是可變的,該怎么辦? 是否應該由於預定義的鍵而將其用作基礎正則表達式方法,還是可以通過監督學習/ NN來實現它? (但是在這種情況下,如何處理可變鍵?)
您可以使用解析器標記病房。 您的問題類似於命名實體識別。 許多庫都提供POS標記器。 您可以嘗試那些。 通常對它們進行培訓以識別名稱,位置等。根據您需要的單詞類型,您可能需要訓練解析器。 因此,您還需要一些標記數據。
查看此鏈接: https : //nlp.stanford.edu/software/CRF-NER.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.