![](/img/trans.png)
[英]Using Google Cloud Document AI Processors for PDF analysis and document generation
[英]Detecting a map of key value pairs using Document AI
我從 DocumentAI 文檔中了解到,從醫學測試結果等報告中提取信息的最佳匹配是使用表單解析處理器。 這對於一個 label 恰好有一個值的報告非常有用。比如患者姓名或患者年齡等。但我試圖在 map 的鍵值對中獲取各種測試結果表,其中鍵是測試名稱並重視我們的結果。
對於自定義處理器,我嘗試選擇一個 label,其屬性可以出現多次,但不保持 testName 和 testValue 之間的鏈接。
期望的結果可能是
{
name : Jon Doe
age : 76
tests :[
{
testName : CRP ,
testValue : 51
},
{
testName : Creatinine ,
testValue : 0.8
}
]
}
我認為它類似於表。 https://cloud.google.com/document-ai/docs/handle-response
表單解析器處理器在可以檢測文檔中的表格時允許進行表格解析。 此示例代碼顯示了如何提取formField
和表格。
https://cloud.google.com/document-ai/docs/handle-response#forms_and_tables
此 Form Parser Codelab 還展示了更多示例,例如將 formFields & Tables 轉換為 Pandas DataFrame。
https://codelabs.developers.google.com/codelabs/docai-form-parser-v1-python
您還可以創建一個自定義文檔提取器處理器,為特定文檔結構制作自定義 model,但您將必須使用 label 示例文檔並訓練新版本。
請注意,這會創建一個實體提取處理器,它的工作方式與表單解析器不同(並且當前不以相同的方式提取表單字段和表格)。
您需要分別對每個實體進行 label 訓練,然后使用此示例代碼從處理響應中獲取實體信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.