簡體   English   中英

AWS textract 表單設計最佳實踐

[英]Aws textract form design best practices

我目前正在重新設計文檔和 forms,以提高使用 Aws textract 提取的便利性。

您有經驗和最佳實踐可以分享嗎?

問候

AWS Textract 使用機器學習算法從 forms 和表中提取數據。 總的來說,他們沒有提供任何可遵循的良好做法。 這個想法是,無論格式如何,他們都可以提取數據。

我的建議是進行一些手動測試。 只需查看當前 forms 或您正在使用的文檔最常見的問題是什么。 檢查數據是否丟失、不一致或只是錯誤檢測,並嘗試解決這些問題。 然后對新的 forms 重復相同的過程,看看是否有改進。

提高 Textract 的准確性是您唯一的目標嗎? 如果是這樣,那么您可能已經意識到存在的問題。 使用這些知識。

在這種情況下,了解改進了哪些地方將非常有幫助。

了解我們所討論的文檔類型也有助於提供更好的答案。 以及您使用的框架/生成器。

以下是 Amazon Textract 開發人員指南中推薦的一些最佳實踐,以提供最佳輸入文檔

以下是您可以優化輸入文檔以獲得更好結果的幾種方法的列表。

  • 確保您的文檔文本使用 Amazon Textract 支持的語言。 目前,Amazon Textract 支持英語、西班牙語、德語、意大利語、法語和葡萄牙語。
  • 提供高質量的圖像,理想情況下至少為 150 DPI。
  • 如果您的文檔已經是 Amazon Textract 支持的其中一種文件格式(PDF、TIFF、JPEG 和 PNG),請不要在將文檔上傳到 Amazon Textract 之前對其進行轉換或縮減采樣。

從文檔中的表格中提取文本時,為了獲得最佳結果,請確保:

  • 文檔中的表格在視覺上與頁面上的周圍元素分開。 例如,表格不會疊加在圖像或復雜圖案上。
  • 表格內的文字是直立的。 例如,文本不會相對於頁面上的其他文本旋轉。 從表中提取文本時,您可能會在以下情況下看到不一致的結果:
  • 跨越多列的合並表格單元格。
  • 包含與同一表格的其他部分不同的單元格、行或列的表格。

我強烈建議您查看開發人員指南。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM