AWS textract multipage PDF 僅提取表格和表格提取的第一頁

Question

我正在使用 AWS Textract 使用以下代碼進行表單和表格提取。 對於某些 pdf 它從所有頁面中提取 forms 但對於某些 pdf 僅提取第一頁。 在使用 textract 用戶界面時，它會提取所有頁面。 這可能是什么原因？

我正在使用以下代碼，該代碼可在 aws 上找到。

def create_client(access_key, secret_key):
    return boto3.client('textract',region_name='us-east-2', 
            aws_access_key_id=access_key, 
            aws_secret_access_key=secret_key)

def isJobComplete(jobId):
    client = create_client(access_key, secret_key)
    response = client.get_document_analysis(JobId=jobId)
    status = response["JobStatus"]
    print("Job status: {}".format(status))
    while(status == "IN_PROGRESS"):
        time.sleep(2)
        response = client.get_document_analysis(JobId=jobId)
        status = response["JobStatus"]
        print("Job status: {}".format(status))
    return status
    
def getJobResults(jobId):
    client = create_client(access_key, secret_key)
    response = client.get_document_analysis(JobId=jobId)
    return response

編輯：看起來它與響應大小有關。 大小幾乎是固定的。

誰能幫我這個？

Answer 1

找到了解決方案...

有一個參數叫做 nexttoken。 形成當前響應，您可以獲取 nexttoken 值並將其用作get_document_analysis中的參數並迭代直到 nexttoken 為 None。 您將收到這批回復。

AWS textract multipage PDF 僅提取表格和表格提取的第一頁

問題描述

1 個解決方案

解決方案1
0 2021-12-16 09:35:35

AWS textract multipage PDF 僅提取表格和表格提取的第一頁

問題描述

1 個解決方案

解決方案1 0 2021-12-16 09:35:35

解決方案1
0 2021-12-16 09:35:35