簡體   English   中英

通過剪貼板使用python挖掘pdf數據-使用Python編寫操作系統腳本

[英]Mining pdf Data with python through clipboard - Python Scripting the OS

我寫了一個腳本,可以從pdf中提取數據。 我正在使用win32clipboard模塊將數據復制到python中。 獲得了如何獲取每個文件中所需數據的邏輯。

我的過程的缺點是,我必須打開每個pdf Ctr-A才能全選,然后再按Ctrl-C才能將其放入剪貼板。 然后運行腳本。 供參考,它正在使用DataNitro在Excel中運行。

我已經嘗試了PDFMiner,但是似乎它沒有得到維護,並且傾向於將文本分成小塊。 我正在挖掘的PDF包含許多“小”表。 剪貼板中的副本似乎可以很好地將相關內容保持在一起。

關於如何編寫全選和復制PDF腳本的任何建議。 基本上,我正在尋找一種編寫操作系統腳本的python方法。 膽量是不可能的,但是也許有人知道。

我已經決定使用pyPdf。 它有一個簡單的方法,可以從pdf中提取文本。 我編寫了一些簡單的函數來查找本文中所需的相關信息。 將文本分成列表,以便於識別數據。

還編寫了一個循環,以使用全局搜索來拾取相關文件並將其饋入解析器。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM