從非結構化字符串中提取鍵值對的最佳方法？

Question

避免特定模式的大多數硬編碼規則。

我目前正在開發與AWS Textract類似的項目，請點擊此處鏈接。 我已經成功地從文件中提取數據，但是以非結構化的方式。 現在，我試圖弄清楚如何從這一堆信息中獲取現有的Key-Value Pairs，並以最佳方式。

例如，我們有這樣的文字：

在本文檔中，我們將找到不同的鍵和值，如id：1和那個國家：法國沒有特定的標點符號，可能還在談論我的健康狀況有多好......

提取將是這樣的：

id : 1
country : France
health : good

我真正知道的是，亞馬遜使用“置信度”變量從這種場景中提取信息，我猜這涉及一些機器學習算法。 就我而言，我沒有那么大的數據庫可供學習。

我很確定有一個更簡單的解決方案，既不靈活。

Answer 1

我相信spaCy庫可能是滿足您需求的正確工具。 查看GitHub上的描述來弄清楚。

它可以使用spacy-nlp包暴露給Node JS。