如何從PDF文件中的表格中提取數據？

Question

我有一個包含表格的PDF文件，格式如下：

pdf img

現在；我需要從每一行的特定列中提取數據以插入數據庫中。 如何僅使用javascript或python提取所需的列？

我已經嘗試過手動方式，但這還不夠。

我希望將原始數據放入變量（數組或列表）中。

========================================更新：

我決定使用python，該庫的名稱為tabula。 我使用pip安裝了它：

pip install tabula-py

您將pdf傳遞給庫並指定表的頁面。 我的問題中表格的輸出看起來像是這樣：

Answer 1

您可以嘗試AWS Textract。 它具有提取表的功能，可將數據作為csv / json提供給您。

您可以在這里查看更多信息

Answer 2

我使用pdfjs-dist提取pdf中的項目，並應用一些規則來標識表格元素。 提取的項目不僅具有文本信息，而且還具有一個名為“ transform”（變換矩陣）的屬性，該屬性包含坐標信息，該信息也可以用於標識表格元素。

第一件事是找到表的開頭。 在許多情況下，標題都是相同的，因此您可以利用這些單詞來查找開頭。 行中的第一個表格元素可以共享相同的坐標，這也可以提供表格開始的線索。 在確定表的開頭之后，由於所有表都是固定寬度的，因此可以將項目划分為某些列。 請注意，單個單元格中可能有多個行，因此您需要將它們合並。

如何從PDF文件中的表格中提取數據？

問題描述

2 個解決方案

解決方案1
2 2019-08-08 10:09:59

解決方案2
1 2019-08-08 15:12:03

如何從PDF文件中的表格中提取數據？

問題描述

2 個解決方案

解決方案1 2 2019-08-08 10:09:59

解決方案2 1 2019-08-08 15:12:03

解決方案1
2 2019-08-08 10:09:59

解決方案2
1 2019-08-08 15:12:03