簡體   English   中英

如何使用python從pdf中提取一些數學表達式?

[英]How to extract some mathematical expressionfrom pdf using python?

我有一個具有數學等式像PDF這樣

我試圖從 pdf 文件中提取客觀問題,並使用 python 將它們轉換為 csv 文件,這樣表格的每一行都包含一個問題,每列中有四個選項和一個正確的選項(總共六列)。 但是那個 pdf 也有那些數學方程,我不能把它們寫成 csv 文件。 是否可以像在 pdf 文件中那樣將這些方程寫入我的 csv 文件中?

這取決於公式在 PDF 中的表示方式。 它可以是 XObject、內嵌圖像或 unicode 文本。

試試pdfreader 它可以從 PDF 文檔中提取純文本、包含 PDF 命令的文本和圖像。

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM