pdf.js（用於節點）未呈現pdf的全部內容

Question

我正在嘗試使用https://www.npmjs.com/package/pdfjs-dist-for-node搜索pdf的文本。

我的代碼如下所示：

 gettext: function(){
     var data = '../static/example.pdf';
         return pdfjs.getDocument(data).then(function(pdf) {
     var pages = [];
     for (var i = 0; i < pdf.numPages; i++) {
                 pages.push(i);
     }
     return Promise.all(pages.map(function(pageNumber) {
                 return pdf.getPage(pageNumber + 1).then(function(page) {
         return page.getTextContent().then(function(textContent) {
                         return textContent.items.map(function(item) {
             return item.str;
                         }).join(' ');
         });
                 });
     })).then(function(pages) {
         return pages.join("\r\n")
     });
         }).then(function(pages){
     console.log(pages)
     });


 }

這似乎可行，但是它會跳過部分文本。 具體來說，它會跳過我無法用鼠標在原始pdf文檔中突出顯示的內容。 有沒有辦法讓pdf.js提取這些數據？

Answer 1

如果在查看PDF時無法選擇文本，則意味着它實際上是圖像，因此，您將無法搜索它。

因此，很遺憾，這是不可能的，除非您先進行其他設置以對PDF進行OCR，然后再嘗試將圖像轉換為文本。

pdf.js（用於節點）未呈現pdf的全部內容

問題描述

1 個解決方案

解決方案1
0 2017-05-09 11:57:15

pdf.js（用於節點）未呈現pdf的全部內容

問題描述

1 個解決方案

解決方案1 0 2017-05-09 11:57:15

解決方案1
0 2017-05-09 11:57:15