[英]Best way to extract Key-Value Pairs from unstructured String?
避免特定模式的大多數硬編碼規則。
我目前正在開發與AWS Textract類似的項目,請點擊此處鏈接 。 我已經成功地從文件中提取數據,但是以非結構化的方式。 現在,我試圖弄清楚如何從這一堆信息中獲取現有的Key-Value Pairs,並以最佳方式。
例如,我們有這樣的文字:
在本文檔中,我們將找到不同的鍵和值,如id:1和那個國家:法國沒有特定的標點符號,可能還在談論我的健康狀況有多好......
提取將是這樣的:
id : 1
country : France
health : good
我真正知道的是,亞馬遜使用“置信度”變量從這種場景中提取信息,我猜這涉及一些機器學習算法。 就我而言,我沒有那么大的數據庫可供學習。
我很確定有一個更簡單的解決方案,既不靈活。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.