[英]Pdf.js (for node) not rendering entire contents of pdf
我正在嘗試使用https://www.npmjs.com/package/pdfjs-dist-for-node搜索pdf的文本。
我的代碼如下所示:
gettext: function(){
var data = '../static/example.pdf';
return pdfjs.getDocument(data).then(function(pdf) {
var pages = [];
for (var i = 0; i < pdf.numPages; i++) {
pages.push(i);
}
return Promise.all(pages.map(function(pageNumber) {
return pdf.getPage(pageNumber + 1).then(function(page) {
return page.getTextContent().then(function(textContent) {
return textContent.items.map(function(item) {
return item.str;
}).join(' ');
});
});
})).then(function(pages) {
return pages.join("\r\n")
});
}).then(function(pages){
console.log(pages)
});
}
這似乎可行,但是它會跳過部分文本。 具體來說,它會跳過我無法用鼠標在原始pdf文檔中突出顯示的內容。 有沒有辦法讓pdf.js提取這些數據?
如果在查看PDF時無法選擇文本,則意味着它實際上是圖像 ,因此,您將無法搜索它。
因此,很遺憾,這是不可能的,除非您先進行其他設置以對PDF進行OCR,然后再嘗試將圖像轉換為文本。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.