python 表格錯誤編碼 pdf 讀取

Question

我想從 dataframe 中的 PDF 導出表或獲取 csv 文件。 但我無法讀取帶有 Python 的 PDF 文件。 我需要做什么？ 我嘗試使用 Python 表格閱讀PDF ：

from tabula import read_pdf

df = read_pdf(name)

我采取：

> pages' argument isn't specified.Will extract only from page 1 by default.
Got stderr: Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+564 (564) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+639 (639) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+632 (632) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+657 (657) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+637 (637) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+656 (656) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+646 (646) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+653 (653) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+635 (635) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+574 (574) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+664 (664) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+631 (631) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+585 (585) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+581 (581) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+570 (570) in font Calibri,Bold-Identity-H
Dec 28, 2021 1:14:07 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode

Answer 1

在評論中，我建議 PDF 的內容有問題，因為希臘詞沒有被正確編碼，因此糾正這種情況的最佳方法是使用 OCR，但是許多 OCR 嘗試也被 PDF 的內容誤導

因此，在這種情況下，最好的工作解決方案是從圖像中重新進行 OCR，例如，我將第一頁打印得很糟糕，但這是為了證明圖像路徑可能會讓您更接近目標。

我目前只有一種通過 200dpi 傳真導出為單色 tiff 的方法，使用灰度 as.png.pbm 或 .tif[f]（不是 jpg）可以獲得更好的結果

一旦轉換為純文本 docx 或 xls，它應該會產生類似這樣的內容，忽略糟糕的標題，這是在帶有點狀背景的單色中使用這種粗略嘗試的副產品。

顯然，結果需要進行一些清理以匹配輸入，例如拼寫檢查，但對於文本處理應該足夠好

python 表格錯誤編碼 pdf 讀取

問題描述

1 個解決方案

解決方案1
0 2021-12-30 16:06:27

python 表格錯誤編碼 pdf 讀取

問題描述

1 個解決方案

解決方案1 0 2021-12-30 16:06:27

解決方案1
0 2021-12-30 16:06:27