簡體   English   中英

pdf.js(用於節點)未呈現pdf的全部內容

[英]Pdf.js (for node) not rendering entire contents of pdf

我正在嘗試使用https://www.npmjs.com/package/pdfjs-dist-for-node搜索pdf的文本。

我的代碼如下所示:

 gettext: function(){
     var data = '../static/example.pdf';
         return pdfjs.getDocument(data).then(function(pdf) {
     var pages = [];
     for (var i = 0; i < pdf.numPages; i++) {
                 pages.push(i);
     }
     return Promise.all(pages.map(function(pageNumber) {
                 return pdf.getPage(pageNumber + 1).then(function(page) {
         return page.getTextContent().then(function(textContent) {
                         return textContent.items.map(function(item) {
             return item.str;
                         }).join(' ');
         });
                 });
     })).then(function(pages) {
         return pages.join("\r\n")
     });
         }).then(function(pages){
     console.log(pages)
     });


 }

這似乎可行,但是它會跳過部分文本。 具體來說,它會跳過我無法用鼠標在原始pdf文檔中突出顯示的內容。 有沒有辦法讓pdf.js提取這些數據?

如果在查看PDF時無法選擇文本,則意味着它實際上是圖像 ,因此,您將無法搜索它。

因此,很遺憾,這是不可能的,除非您先進行其他設置以對PDF進行OCR,然后再嘗試將圖像轉換為文本。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM