[英]Batch Export PDF Properties
TL; DR
我正在寻找一个充满PDF文件的文件目录,并将其属性(尤其是页码)“导出”到.CSV文件。
研究
我发现有很多程序可以批量导出PDF的元数据,但这通常与源信息有关,而与有关PDF本身的信息无关。
细节
我需要页码才能推断出页面顺序。 我正在使用一个索引系统,该系统将允许两方查找并交流有关文档的信息。 我计划制作一个包含文档标题和唯一ID的Excel文档,该文档标题和ID必须与PDF上的顺序贝茨编号相对应。
我不介意对此进行编码或使之具有广泛的创造性,但是由于文件很多,它必须可以批量完成。
预先感谢您提供的任何帮助。
您说过您不介意编码,所以这是一个简短的Python脚本,可以满足您的需要(据我所知)。
#!python3.6
import csv
import os
import fitz # http://pymupdf.readthedocs.io/en/latest/
def main():
""" Place script in same directory as PDFs. """
script_dir = os.path.dirname(os.path.abspath(__file__))
csv_filename = os.path.join(script_dir, 'pdf_information.csv')
with open(csv_filename, mode='w', newline='') as f:
writer = csv.writer(f)
writer.writerow([
'Filename',
'Page Count',
])
for basename in os.listdir(script_dir):
if basename.upper().endswith('.PDF'):
filename = os.path.join(script_dir, basename)
pdf = fitz.open(filename)
writer.writerow([
basename,
pdf.pageCount,
])
pdf.close()
if __name__ == '__main__':
main()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.