簡體   English   中英

從 PDF 讀取表格時表格字體錯誤

[英]Tabula font error in reading table from PDF

我看到很多人有類似的問題,但不是這個。 不幸的是,許多類似的問題都沒有適用的解決方案。

我從 tabula 收到了這個警告。 當我查看結果或測試它提取的長度時,那里什么都沒有。 這是消息:

Got stderr: Apr 12, 2022 5:34:12 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>
WARNING: Using fallback font 'Helvetica-Oblique' for 'CenturyGothic-Italic'

我正在使用的是:

   table = tabula.read_pdf(pdf_path, pages= page, multiple_tables = True) 

有任何想法嗎??

正確的方法是按照此處答案中的建議安裝缺少的 fonts: Using fallback font while parsing file content using pdfbox - 它會導致錯誤嗎?

但是,對於我的應用程序,即從 docker 容器讀取 pdf 文件,在操作系統中安裝額外的 fonts 可能是不必要的。 因為您在日志中看到的是警告,所以缺少 fonts 不會真正影響 PDF 的解析。

要從 tabula.py 中的任何日志記錄中刪除這些警告,我只需在方法調用中將silent=True添加到 arguments 中,如下所示:

table_df = tabula.read_pdf(
    input_path=pdf_file, 
    output_format="dataframe", 
    pages="all", 
    silent=True,
)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM