簡體   English   中英

如何從PDF文件中的表格中提取數據?

[英]How to extract data from a table in a PDF file?

我有一個包含表格的PDF文件,格式如下:

pdf img

現在;我需要從每一行的特定列中提取數據以插入數據庫中。 如何僅使用javascript或python提取所需的列?

我已經嘗試過手動方式,但這還不夠。

我希望將原始數據放入變量(數組或列表)中。

========================================更新:

我決定使用python,該庫的名稱為tabula。 我使用pip安裝了它:

pip install tabula-py

您將pdf傳遞給庫並指定表的頁面。 我的問題中表格的輸出看起來像是這樣:

在此處輸入圖片說明

您可以嘗試AWS Textract。 它具有提取表的功能,可將數據作為csv / json提供給您。

您可以在這里查看更多信息

我使用pdfjs-dist提取pdf中的項目,並應用一些規則來標識表格元素。 提取的項目不僅具有文本信息,而且還具有一個名為“ transform”(變換矩陣)的屬性,該屬性包含坐標信息,該信息也可以用於標識表格元素。

第一件事是找到表的開頭。 在許多情況下,標題都是相同的,因此您可以利用這些單詞來查找開頭。 行中的第一個表格元素可以共享相同的坐標,這也可以提供表格開始的線索。 在確定表的開頭之后,由於所有表都是固定寬度的,因此可以將項目划分為某些列。 請注意,單個單元格中可能有多個行,因此您需要將它們合並。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM