通過剪貼板使用python挖掘pdf數據-使用Python編寫操作系統腳本

Question

我寫了一個腳本，可以從pdf中提取數據。 我正在使用win32clipboard模塊將數據復制到python中。 獲得了如何獲取每個文件中所需數據的邏輯。

我的過程的缺點是，我必須打開每個pdf Ctr-A才能全選，然后再按Ctrl-C才能將其放入剪貼板。 然后運行腳本。 供參考，它正在使用DataNitro在Excel中運行。

我已經嘗試了PDFMiner，但是似乎它沒有得到維護，並且傾向於將文本分成小塊。 我正在挖掘的PDF包含許多“小”表。 剪貼板中的副本似乎可以很好地將相關內容保持在一起。

關於如何編寫全選和復制PDF腳本的任何建議。 基本上，我正在尋找一種編寫操作系統腳本的python方法。 膽量是不可能的，但是也許有人知道。

Answer 1

我已經決定使用pyPdf。 它有一個簡單的方法，可以從pdf中提取文本。 我編寫了一些簡單的函數來查找本文中所需的相關信息。 將文本分成列表，以便於識別數據。

還編寫了一個循環，以使用全局搜索來拾取相關文件並將其饋入解析器。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')