如何使用 a2i 的 crowd-textract-analyze-document 突出顯示自定義提取？

Question

我想為使用 Amazon Textract 進行 OCR 和使用 Amazon Comprehend 進行實體提取的圖像創建人工審核循環。

我的流程是：

將圖像發送到 Textract 以提取文本
將文本發送到 Comprehend 以提取實體
在 Comprehend 提取的實體的 Textract output 中找到塊 ID
根據文檔將 KEY_VALUE_SET 類型的新塊添加到KEY_VALUE_SET的 JSON output
在模板中使用crowd-textract-analyze-document元素創建人工任務，並將修改后的 textract output 提供給它

在此過程中失敗的是第 5 步。我的自定義實體未正確呈現。 “無法工作”是指當我在側邊欄上單擊實體時，實體沒有在圖像上突出顯示。 瀏覽器的控制台沒有錯誤。

有沒有人嘗試過這樣的事情？

抱歉沒有包括示例。 我將從我的文件中刪除機密/PII 並將它們附加到問題中

Answer 1

我使用a2i-crowd-textract-detection 人工任務元素的 AWS 文檔來生成initialValue屬性的值。 該屬性的文檔似乎不正確。 雖然文檔顯示該值的格式應與 Textract 的 output 相同，即：

[
        {
            "BlockType": "KEY_VALUE_SET",
            "Confidence": 38.43309020996094,
            "Geometry": { ... }
            "Id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "Relationships": [
                { "Type": "CHILD", "Ids": [...]},
                { "Type": "VALUE", "Ids": [...]}
            ],
            "EntityTypes": ["KEY"],
            "Text": "Foo bar"
        },
]

a2i-crowd-textract-detection期望輸入具有 lowerCamelCase 屬性名稱（而不是 UpperCamelCase）。 例如：

[
        {
            "blockType": "KEY_VALUE_SET",
            "confidence": 38.43309020996094,
            "geometry": { ... }
            "id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "relationships": [
                { "Type": "CHILD", "ids": [...]},
                { "Type": "VALUE", "ids": [...]}
            ],
            "entityTypes": ["KEY"],
            "text": "Foo bar"
        },
]

我向 AWS 提出了一個關於此文檔錯誤的支持案例。

如何使用 a2i 的 crowd-textract-analyze-document 突出顯示自定義提取？

問題描述

1 個解決方案

解決方案1
1 已采納 2020-10-18 09:15:33

如何使用 a2i 的 crowd-textract-analyze-document 突出顯示自定義提取？

問題描述

1 個解決方案

解決方案1 1 已采納 2020-10-18 09:15:33

解決方案1
1 已采納 2020-10-18 09:15:33