批量导出PDF属性

Question

TL; DR

我正在寻找一个充满PDF文件的文件目录，并将其属性（尤其是页码）“导出”到.CSV文件。

研究

我发现有很多程序可以批量导出PDF的元数据，但这通常与源信息有关，而与有关PDF本身的信息无关。

细节

我需要页码才能推断出页面顺序。 我正在使用一个索引系统，该系统将允许两方查找并交流有关文档的信息。 我计划制作一个包含文档标题和唯一ID的Excel文档，该文档标题和ID必须与PDF上的顺序贝茨编号相对应。

我不介意对此进行编码或使之具有广泛的创造性，但是由于文件很多，它必须可以批量完成。

预先感谢您提供的任何帮助。

Answer 1

您说过您不介意编码，所以这是一个简短的Python脚本，可以满足您的需要（据我所知）。

#!python3.6
import csv
import os

import fitz  # http://pymupdf.readthedocs.io/en/latest/


def main():
    """ Place script in same directory as PDFs. """
    script_dir = os.path.dirname(os.path.abspath(__file__))
    csv_filename = os.path.join(script_dir, 'pdf_information.csv')
    with open(csv_filename, mode='w', newline='') as f:
        writer = csv.writer(f)
        writer.writerow([
            'Filename',
            'Page Count',
        ])
        for basename in os.listdir(script_dir):
            if basename.upper().endswith('.PDF'):
                filename = os.path.join(script_dir, basename)
                pdf = fitz.open(filename)
                writer.writerow([
                    basename,
                    pdf.pageCount,
                ])
                pdf.close()


if __name__ == '__main__':
    main()

批量导出PDF属性

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-05-09 21:19:23

批量导出PDF属性

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-05-09 21:19:23

解决方案1
0 已采纳 2018-05-09 21:19:23