如何在pdf文件中逐行阅读并创建CSV文件

Question

这是我的pdf 在此处输入图片说明 我找到了这个，并用它来刮掉我的pdf。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -

它非常混乱。 或是因为PDF格式无法读取？ 我以为有一种方法可以抓取每一行并通过迭代等方式创建带有列的CSV文件。

就像用列填充CSV

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

有没有解决的办法？

Answer 1

您使用的代码段提供了一些实际上不可用的数据，我认为这不是要走的路。 从PDF进行抓取通常相当困难，但是请访问pdftables.com：它们提供了从PDF文档抓取表格的API，在大多数情况下，我发现这些API都是行得通的-这是您最好的机会。

Answer 2

您可以使用Camelot（这是一个Python库）来创建一个脚本，该脚本从PDF中提取表格数据并将其导出到CSV。 您可以在以下位置查看文档： http : //camelot-py.readthedocs.io 。 如果您可以将链接发布到PDF，则将很有帮助。 这是一个通用代码示例：

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免责声明：我是图书馆的作者。

如何在pdf文件中逐行阅读并创建CSV文件

问题描述

2 个解决方案

解决方案1
0 2014-09-17 16:48:34

解决方案2
0 2018-11-09 18:49:40

如何在pdf文件中逐行阅读并创建CSV文件

问题描述

2 个解决方案

解决方案1 0 2014-09-17 16:48:34

解决方案2 0 2018-11-09 18:49:40

解决方案1
0 2014-09-17 16:48:34

解决方案2
0 2018-11-09 18:49:40