簡體   English   中英

從非結構化字符串中提取鍵值對的最佳方法?

[英]Best way to extract Key-Value Pairs from unstructured String?

避免特定模式的大多數硬編碼規則。

我目前正在開發與AWS Textract類似的項目,請點擊此處鏈接 我已經成功地從文件中提取數據,但是以非結構化的方式。 現在,我試圖弄清楚如何從這一堆信息中獲取現有的Key-Value Pairs,並以最佳方式。

例如,我們有這樣的文字:

在本文檔中,我們將找到不同的鍵和值,如id:1和那個國家:法國沒有特定的標點符號,可能還在談論我的健康狀況有多好......

提取將是這樣的:

id : 1
country : France
health : good

我真正知道的是,亞馬遜使用“置信度”變量從這種場景中提取信息,我猜這涉及一些機器學習算法。 就我而言,我沒有那么大的數據庫可供學習。

我很確定有一個更簡單的解決方案,既不靈活。

我相信spaCy庫可能是滿足您需求的正確工具。 查看GitHub上的描述來弄清楚。

它可以使用spacy-nlp包暴露給Node JS。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM