[英]How to extract data from a table in a PDF file?
您可以嘗試AWS Textract。 它具有提取表的功能,可將數據作為csv / json提供給您。
您可以在這里查看更多信息
我使用pdfjs-dist提取pdf中的項目,並應用一些規則來標識表格元素。 提取的項目不僅具有文本信息,而且還具有一個名為“ transform”(變換矩陣)的屬性,該屬性包含坐標信息,該信息也可以用於標識表格元素。
第一件事是找到表的開頭。 在許多情況下,標題都是相同的,因此您可以利用這些單詞來查找開頭。 行中的第一個表格元素可以共享相同的坐標,這也可以提供表格開始的線索。 在確定表的開頭之后,由於所有表都是固定寬度的,因此可以將項目划分為某些列。 請注意,單個單元格中可能有多個行,因此您需要將它們合並。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.