如何抓取pdf的几页？

Question

我的代码是这样的：

df = tabula.read_pdf('test.pdf', pages = ['all'])[0]

df.head()

df.to_excel('test.xlsx')`

当我运行它时，我的 Excel 中只有第一页......

Answer 1

您阅读了所有页面的整个 pdf，但您获取了第一个元素。

df = tabula.read_pdf('test.pdf', pages = ['all'])[0]
                                                 ^^^

我认为您必须删除它并将其连接起来才能使所有页面都表现出色。 类似的东西：

dfs = tabula.read_pdf(self.file, pages='all')
df = pd.concat(dfs)
df.to_excel("filename.xlsx")

这是一篇如何处理pdf的好文章