簡體   English   中英

如何在Python中使用PDF從文本框中提取文本?

[英]How can I extract text from textboxes within a PDF in Python?

我沒有pyPDF2PDFMiner運氣。 即使填寫了文本,這些工具也總是返回_______________ 。是否有人對如何提取文本框字段中的文本有任何想法?

您需要提取文本字段,而不是文本。 所以你需要這樣的東西:

import sys
import six
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

fp = open("c:\\tmp\\test.pdf", "rb")

parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog["AcroForm"])["Fields"]
for i in fields:
    field = resolve1(i)
    name, value = field.get("T"), field.get("V")
    print ("{0}:{1}".format(name,value))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM