繁体   English   中英

如何在pdf文件中逐行阅读并创建CSV文件

[英]How to read line by line in pdf file and create a CSV

这是我的pdf 在此处输入图片说明 我找到了这个,并用它来刮掉我的pdf。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -     

它非常混乱。 或是因为PDF格式无法读取? 我以为有一种方法可以抓取每一行并通过迭代等方式创建带有列的CSV文件。

就像用列填充CSV

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

有没有解决的办法?

您使用的代码段提供了一些实际上不可用的数据,我认为这不是要走的路。 从PDF进行抓取通常相当困难,但是请访问pdftables.com:它们提供了从PDF文档抓取表格的API,在大多数情况下,我发现这些API都是行得通的-这是您最好的机会。

您可以使用Camelot(这是一个Python库)来创建一个脚本,该脚本从PDF中提取表格数据并将其导出到CSV。 您可以在以下位置查看文档: http : //camelot-py.readthedocs.io 如果您可以将链接发布到PDF,则将很有帮助。 这是一个通用代码示例:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免责声明:我是图书馆的作者。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM