批量導出PDF屬性

Question

TL; DR

我正在尋找一個充滿PDF文件的文件目錄，並將其屬性（尤其是頁碼）“導出”到.CSV文件。

研究

我發現有很多程序可以批量導出PDF的元數據，但這通常與源信息有關，而與有關PDF本身的信息無關。

細節

我需要頁碼才能推斷出頁面順序。 我正在使用一個索引系統，該系統將允許兩方查找並交流有關文檔的信息。 我計划制作一個包含文檔標題和唯一ID的Excel文檔，該文檔標題和ID必須與PDF上的順序貝茨編號相對應。

我不介意對此進行編碼或使之具有廣泛的創造性，但是由於文件很多，它必須可以批量完成。

預先感謝您提供的任何幫助。

Answer 1

您說過您不介意編碼，所以這是一個簡短的Python腳本，可以滿足您的需要（據我所知）。

#!python3.6
import csv
import os

import fitz  # http://pymupdf.readthedocs.io/en/latest/


def main():
    """ Place script in same directory as PDFs. """
    script_dir = os.path.dirname(os.path.abspath(__file__))
    csv_filename = os.path.join(script_dir, 'pdf_information.csv')
    with open(csv_filename, mode='w', newline='') as f:
        writer = csv.writer(f)
        writer.writerow([
            'Filename',
            'Page Count',
        ])
        for basename in os.listdir(script_dir):
            if basename.upper().endswith('.PDF'):
                filename = os.path.join(script_dir, basename)
                pdf = fitz.open(filename)
                writer.writerow([
                    basename,
                    pdf.pageCount,
                ])
                pdf.close()


if __name__ == '__main__':
    main()

批量導出PDF屬性

問題描述

1 個解決方案

解決方案1
0 已采納 2018-05-09 21:19:23

批量導出PDF屬性

問題描述

1 個解決方案

解決方案1 0 已采納 2018-05-09 21:19:23

解決方案1
0 已采納 2018-05-09 21:19:23