簡體   English   中英

如何在pdf文件中逐行閱讀並創建CSV文件

[英]How to read line by line in pdf file and create a CSV

這是我的pdf 在此處輸入圖片說明 我找到了這個,並用它來刮掉我的pdf。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -     

它非常混亂。 或是因為PDF格式無法讀取? 我以為有一種方法可以抓取每一行並通過迭代等方式創建帶有列的CSV文件。

就像用列填充CSV

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

有沒有解決的辦法?

您使用的代碼段提供了一些實際上不可用的數據,我認為這不是要走的路。 從PDF進行抓取通常相當困難,但是請訪問pdftables.com:它們提供了從PDF文檔抓取表格的API,在大多數情況下,我發現這些API都是行得通的-這是您最好的機會。

您可以使用Camelot(這是一個Python庫)來創建一個腳本,該腳本從PDF中提取表格數據並將其導出到CSV。 您可以在以下位置查看文檔: http : //camelot-py.readthedocs.io 如果您可以將鏈接發布到PDF,則將很有幫助。 這是一個通用代碼示例:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免責聲明:我是圖書館的作者。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM