如何在pdf文件中逐行閱讀並創建CSV文件

Question

這是我的pdf 在此處輸入圖片說明 我找到了這個，並用它來刮掉我的pdf。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -

它非常混亂。 或是因為PDF格式無法讀取？ 我以為有一種方法可以抓取每一行並通過迭代等方式創建帶有列的CSV文件。

就像用列填充CSV

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

有沒有解決的辦法？

Answer 1

您使用的代碼段提供了一些實際上不可用的數據，我認為這不是要走的路。 從PDF進行抓取通常相當困難，但是請訪問pdftables.com：它們提供了從PDF文檔抓取表格的API，在大多數情況下，我發現這些API都是行得通的-這是您最好的機會。

Answer 2

您可以使用Camelot（這是一個Python庫）來創建一個腳本，該腳本從PDF中提取表格數據並將其導出到CSV。 您可以在以下位置查看文檔： http : //camelot-py.readthedocs.io 。 如果您可以將鏈接發布到PDF，則將很有幫助。 這是一個通用代碼示例：

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免責聲明：我是圖書館的作者。

如何在pdf文件中逐行閱讀並創建CSV文件

問題描述

2 個解決方案

解決方案1
0 2014-09-17 16:48:34

解決方案2
0 2018-11-09 18:49:40

如何在pdf文件中逐行閱讀並創建CSV文件

問題描述

2 個解決方案

解決方案1 0 2014-09-17 16:48:34

解決方案2 0 2018-11-09 18:49:40

解決方案1
0 2014-09-17 16:48:34

解決方案2
0 2018-11-09 18:49:40