Python 抓取非結構化 PDF

Question

我們從提供給我們 PDF 發行說明的供應商那里獲得雙周軟件版本。 筆記中有很多不相關的東西，但最終我們需要 go 並手動將這些筆記中的信息復制/粘貼到 Confluence 頁面中。

理想情況下，我希望能夠編寫一個 python 應用程序，以便能夠從 PDF 中抓取某些部分。結構大致如下（粗體部分是我要提取的部分）：

介紹
新功能
2.1. 新功能 1
描述
2.2新特性2
描述
.
.
.
2.x)新特性 X描述
缺陷修復
描述
缺陷描述表

文檔的 rest 在這種情況下無關緊要

我設法讓它導入文件並提取（全部）文本，但我真的不知道如何只提取第 2 節的標題，然后第 3 節只取表格並用 pandas 重新格式化. go 有什么建議嗎？

import fitz

filename = '~\releasenotes.pdf'

doc = fitz.open(filename)
print (doc) #  Just to see what comes out

（現在我下一步該做什么？）

Answer 1

一個簡單的正則表達式（regular expression）應該可以解決這個問題。 當您閱讀 pdf 時，我正在圍繞文本的外觀做出一些重大假設 - 我已經從您的帖子中復制了文本，並根據您的問題將其稱為“文檔”:)

import re #regular expression library

doc = '''
Introduction
New Features
2.1. New Feature 1
description
2.2 New Feature 2
description
.
.
.
2.x) New Feature X description
'''

ds_features = pd.Series(re.findall('2.[1-9].*\n', doc))

讓我解開最后一行： re.findall將在您的文檔中生成與搜索字符串'2.[1-9].*\n'匹配的項目列表，將找到2.后跟任何數字的所有實例[1-9] ，后跟任意數量的字符.*直到到達換行符\n 。

希望這符合要求？

Python 抓取非結構化 PDF

問題描述

1 個解決方案

解決方案1
0 已采納 2020-09-01 12:23:32

Python 抓取非結構化 PDF

問題描述

1 個解決方案

解決方案1 0 已采納 2020-09-01 12:23:32

解決方案1
0 已采納 2020-09-01 12:23:32