[英]How to read line by line in pdf file and create a CSV
這是我的pdf 我找到了這個,並用它來刮掉我的pdf。
6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -
它非常混亂。 或是因為PDF格式無法讀取? 我以為有一種方法可以抓取每一行並通過迭代等方式創建帶有列的CSV文件。
就像用列填充CSV
T26 | Texan 26 | 1009 West 26th | 307 | 6x3 | ...
e075| Texan North Campus| 5117 N Lamar |See below | 6x3 |...
有沒有解決的辦法?
您使用的代碼段提供了一些實際上不可用的數據,我認為這不是要走的路。 從PDF進行抓取通常相當困難,但是請訪問pdftables.com:它們提供了從PDF文檔抓取表格的API,在大多數情況下,我發現這些API都是行得通的-這是您最好的機會。
您可以使用Camelot(這是一個Python庫)來創建一個腳本,該腳本從PDF中提取表格數據並將其導出到CSV。 您可以在以下位置查看文檔: http : //camelot-py.readthedocs.io 。 如果您可以將鏈接發布到PDF,則將很有幫助。 這是一個通用代碼示例:
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')
免責聲明:我是圖書館的作者。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.