[英]Mining pdf Data with python through clipboard - Python Scripting the OS
我寫了一個腳本,可以從pdf中提取數據。 我正在使用win32clipboard模塊將數據復制到python中。 獲得了如何獲取每個文件中所需數據的邏輯。
我的過程的缺點是,我必須打開每個pdf Ctr-A才能全選,然后再按Ctrl-C才能將其放入剪貼板。 然后運行腳本。 供參考,它正在使用DataNitro在Excel中運行。
我已經嘗試了PDFMiner,但是似乎它沒有得到維護,並且傾向於將文本分成小塊。 我正在挖掘的PDF包含許多“小”表。 剪貼板中的副本似乎可以很好地將相關內容保持在一起。
關於如何編寫全選和復制PDF腳本的任何建議。 基本上,我正在尋找一種編寫操作系統腳本的python方法。 膽量是不可能的,但是也許有人知道。
我已經決定使用pyPdf。 它有一個簡單的方法,可以從pdf中提取文本。 我編寫了一些簡單的函數來查找本文中所需的相關信息。 將文本分成列表,以便於識別數據。
還編寫了一個循環,以使用全局搜索來拾取相關文件並將其饋入解析器。
import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
data += page.extractText()
data2 = data.split('\n')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.