如何使用python中的tabula提取pdf文件中存在的多個表？

Question

如果pdf文件中只有一個表格，那么可以使用代碼簡單地提取

from tabula import read_pdf
df = read_pdf(r"C:\Users\Himanshu Poddar\Desktop\pdf_file.pdf")

但是如果pdf文件中存在多個表。我無法提取這些表。因為它只提取第一個。

Answer 1

在那里？ 希望下面的代碼會有所幫助，但我仍然沒有用大表測試它。 讓我知道是否有任何可能影響或失敗此代碼的情況。 我是 python 的新手，所以我可以提高我的知識:)

import os
from tabula import wrapper
os.chdir("E:/Documents/myPy/")
tables = wrapper.read_pdf("MyPDF.pdf",multiple_tables=True,pages='all',encoding='utf-8',spreadsheet=True)

i=1
for table in tables:
    table.columns = table.iloc[0]
    table = table.reindex(table.index.drop(0)).reset_index(drop=True)
    table.columns.name = None
    #To write Excel
    table.to_excel('output'+str(i)+'.xlsx',header=True,index=False)
    #To write CSV
    table.to_csv('output'+str(i)+'.csv',sep='|',header=True,index=False)
    i=i+1

Answer 2

即使使用 tabula-py 包裝器，您也可以使用 Tabula Java Docs 上提供的所有相同選項。

在您的情況下，您可以簡單地添加 pages = "all"：

from tabula import read_pdf
df = read_pdf(r"C:\Users\Himanshu Poddar\Desktop\pdf_file.pdf", pages ="all")

Answer 3

如果您的 PDF 有多個表，您可以使用multiple_tables=true選項。

Answer 4

在 read_pdf 中使用multiple_tables=true參數將解決問題

示例::

from tabula import wrapper
df = wrapper.read_pdf("sample.pdf",multiple_tables=True)

現在 read_pdf 在包裝器中，所以我們需要導入它並使用如上所示

Answer 5

如果pdf的所有頁面中表格的結構相同（即具有相同的表格結構和相同的相對位置），那么您可以設置 pages='all' 以獲得正確的結果。

如果沒有，您可能需要迭代所有頁面來解析 pdf。

有一個文檔詳細解釋了它。

Answer 6

如果pdf文件中只有一個表格，則可以使用以下代碼簡單地將其提取出來

from tabula import read_pdf
df = read_pdf(r"C:\Users\Himanshu Poddar\Desktop\pdf_file.pdf")

但是，如果pdf文件中存在多個表，則我無法提取這些表，因為它僅提取第一個表。

如何使用python中的tabula提取pdf文件中存在的多個表？

問題描述

5 個解決方案

解決方案1
3 2019-03-16 21:08:57

解決方案2
2 2018-07-19 08:59:49

解決方案3
0 2018-09-25 11:37:42

解決方案4
0 2019-09-16 12:58:08

解決方案5
0 2019-12-08 12:14:57

解決方案6
0 2020-12-12 18:21:19

如何使用python中的tabula提取pdf文件中存在的多個表？

問題描述

5 個解決方案

解決方案1 3 2019-03-16 21:08:57

解決方案2 2 2018-07-19 08:59:49

解決方案3 0 2018-09-25 11:37:42

解決方案4 0 2019-09-16 12:58:08

解決方案5 0 2019-12-08 12:14:57

解決方案6 0 2020-12-12 18:21:19

解決方案1
3 2019-03-16 21:08:57

解決方案2
2 2018-07-19 08:59:49

解決方案3
0 2018-09-25 11:37:42

解決方案4
0 2019-09-16 12:58:08

解決方案5
0 2019-12-08 12:14:57

解決方案6
0 2020-12-12 18:21:19