[英]Tabula font error in reading table from PDF
我看到很多人有類似的問題,但不是這個。 不幸的是,許多類似的問題都沒有適用的解決方案。
我從 tabula 收到了這個警告。 當我查看結果或測試它提取的長度時,那里什么都沒有。 這是消息:
Got stderr: Apr 12, 2022 5:34:12 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>
WARNING: Using fallback font 'Helvetica-Oblique' for 'CenturyGothic-Italic'
我正在使用的是:
table = tabula.read_pdf(pdf_path, pages= page, multiple_tables = True)
有任何想法嗎??
正確的方法是按照此處答案中的建議安裝缺少的 fonts: Using fallback font while parsing file content using pdfbox - 它會導致錯誤嗎?
但是,對於我的應用程序,即從 docker 容器讀取 pdf 文件,在操作系統中安裝額外的 fonts 可能是不必要的。 因為您在日志中看到的是警告,所以缺少 fonts 不會真正影響 PDF 的解析。
要從 tabula.py 中的任何日志記錄中刪除這些警告,我只需在方法調用中將silent=True
添加到 arguments 中,如下所示:
table_df = tabula.read_pdf(
input_path=pdf_file,
output_format="dataframe",
pages="all",
silent=True,
)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.