簡體   English   中英

AWS textract multipage PDF 僅提取表格和表格提取的第一頁

[英]AWS textract multipage PDF only extract 1st page for Form and Table extraction

我正在使用 AWS Textract 使用以下代碼進行表單和表格提取。 對於某些 pdf 它從所有頁面中提取 forms 但對於某些 pdf 僅提取第一頁。 在使用 textract 用戶界面時,它會提取所有頁面。 這可能是什么原因?

我正在使用以下代碼,該代碼可在 aws 上找到。

def create_client(access_key, secret_key):
    return boto3.client('textract',region_name='us-east-2', 
            aws_access_key_id=access_key, 
            aws_secret_access_key=secret_key)

def isJobComplete(jobId):
    client = create_client(access_key, secret_key)
    response = client.get_document_analysis(JobId=jobId)
    status = response["JobStatus"]
    print("Job status: {}".format(status))
    while(status == "IN_PROGRESS"):
        time.sleep(2)
        response = client.get_document_analysis(JobId=jobId)
        status = response["JobStatus"]
        print("Job status: {}".format(status))
    return status
    
def getJobResults(jobId):
    client = create_client(access_key, secret_key)
    response = client.get_document_analysis(JobId=jobId)
    return response

編輯:看起來它與響應大小有關。 大小幾乎是固定的。

誰能幫我這個?

找到了解決方案...

有一個參數叫做 nexttoken。 形成當前響應,您可以獲取 nexttoken 值並將其用作get_document_analysis中的參數並迭代直到 nexttoken 為 None。 您將收到這批回復。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM