[英]converting pdf to html page wise using python
我有這個
for root, dirnames, filenames in os.walk('FilePath'):
for filename in fnmatch.filter(filenames, 'page-*.pdf'):
# matches.append(os.path.join(root, filename))
subprocess.call('pdf2txt.py > myoutput.html', shell = True)
每當發現具有特定模式的文件時,都需要編寫子過程。[過濾條件]將pdf的子過程轉換為該文件的html。
我如何動態更改提供給子流程的輸入。
歡迎進行編輯。
考慮將glob
與os
模塊一起使用以捕獲.pdf模式以及輸入.pdf和輸出.html文件的完整絕對路徑:
import os
import glob
# CURRENT DIRECTORY OF SCRIPT
cd = os.path.dirname(os.path.abspath(__file__))
for pdf in glob.glob(cd+'/*.pdf'):
file = pdf.replace('.pdf', '')
subprocess.call('python path/to/pdf2txt.py -o {0}.html -t html {1}'.format(file, pdf),
shell = True)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.