繁体   English   中英

如何使用python从pdf中提取一些数学表达式?

[英]How to extract some mathematical expressionfrom pdf using python?

我有一个具有数学等式像PDF这样

我试图从 pdf 文件中提取客观问题,并使用 python 将它们转换为 csv 文件,这样表格的每一行都包含一个问题,每列中有四个选项和一个正确的选项(总共六列)。 但是那个 pdf 也有那些数学方程,我不能把它们写成 csv 文件。 是否可以像在 pdf 文件中那样将这些方程写入我的 csv 文件中?

这取决于公式在 PDF 中的表示方式。 它可以是 XObject、内嵌图像或 unicode 文本。

试试pdfreader 它可以从 PDF 文档中提取纯文本、包含 PDF 命令的文本和图像。

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM