簡體   English   中英

python 表格錯誤編碼 pdf 讀取

[英]python tabula error encoding for pdf read

我想從 dataframe 中的 PDF 導出表或獲取 csv 文件。 但我無法讀取帶有 Python 的 PDF 文件。 我需要做什么? 我嘗試使用 Python 表格閱讀PDF

from tabula import read_pdf

df = read_pdf(name)

我采取:

> pages' argument isn't specified.Will extract only from page 1 by default.
Got stderr: Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+564 (564) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+639 (639) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+632 (632) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+657 (657) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+637 (637) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+656 (656) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+646 (646) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+653 (653) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+635 (635) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+574 (574) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+664 (664) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+631 (631) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+585 (585) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+581 (581) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+570 (570) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode

在評論中,我建議 PDF 的內容有問題,因為希臘詞沒有被正確編碼,因此糾正這種情況的最佳方法是使用 OCR,但是許多 OCR 嘗試也被 PDF 的內容誤導

因此,在這種情況下,最好的工作解決方案是從圖像中重新進行 OCR,例如,我將第一頁打印得很糟糕,但這是為了證明圖像路徑可能會讓您更接近目標。

我目前只有一種通過 200dpi 傳真導出為單色 tiff 的方法,使用灰度 as.png.pbm 或 .tif[f](不是 jpg)可以獲得更好的結果

在此處輸入圖像描述

一旦轉換為純文本 docx 或 xls,它應該會產生類似這樣的內容,忽略糟糕的標題,這是在帶有點狀背景的單色中使用這種粗略嘗試的副產品。

在此處輸入圖像描述

顯然,結果需要進行一些清理以匹配輸入,例如拼寫檢查,但對於文本處理應該足夠好

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM