標簽[hocr] - 堆棧內存溢出

如何使用 fop 將 Tesseract 軟件輸出（hocr）轉換為純 txt 文件（生成零輸出）？

[英]How to convert Tesseract software output (hocr) into plain txt file with fop (generates zero output)?

結果輸出：一個帶有空行的 txt 文件。預期輸出：一個 txt 文件，其中包含“Привет Мир! Это я, обычный неработающий текст или рыба”文本。我究竟做錯了什么？嘗試嵌套的 xsl:for-each 代碼會給出相同的行為。 ...

Windows Tesseract OCR 得到分散的 HOCR 輸出而不是干凈的標准格式

[英]Windows Tesseract OCR getting scattered HOCR out put instead of clean standard format

非常感謝快速幫助。我正在通過 tesseract-OCR 從 tiff 圖像中提取文本。我要找的 output 是.HOCR (HTML)。就內容而言，我得到了完美的 output，但格式看起來非常雜亂無章。但是當我用記事本++打開時，它給出了一個干凈的格式。下面給出windows命令行 ...

來自 OCRmyPDF 的 hOCR output

[英]hOCR output from OCRmyPDF

我正在運行 OCRmyPDF 從掃描的 PDF 創建可搜索的 PDF，它對我來說工作得很好。我只想將掃描的 PDF 的每一頁的 hOCR output 保存在我的本地目錄中。我怎樣才能做到這一點？ ...

將 Google Cloud Vision OCR X 和 Y 坐標轉換為 bbox 坐標

[英]Converting Google Cloud Vision OCR X and Y Co-ordinates to bbox Co-ordinates

Google Cloud Vision OCR 具有以下 Output 用於邊界框 Object。邊界框所需的 Output 格式我想提前 go 並將這些坐標轉換為邊界框坐標以將它們寫入我的 hOCR 格式。其中包括以下格式，用於在文件中寫入這些格式。問題？那么如何將這些 x 和 y 坐標 ...

檢測圖像中的粗體（和斜體）文本

[英]Detecting bold (and italic) text in an image

我想檢測頁面圖像中的粗體（可能還有斜體）文本——想想 TIFF 或圖像 PDF。我需要指向任何這樣做的開源軟件的指針。這是一個字典條目的圖片（來自 Tzeltal--西班牙語詞典），說明了這樣的文本：第一行是粗體，然后是斜體，然后是“正常”；第二個有幾個粗體字，然后是幾個正常字體。格式表 ...

PDFMiner 未檢測到所有頁面

[英]PDFMiner does not detect all pages

我正在嘗試從 pdf 中提取文本，但我遇到了一個錯誤，因為我的腳本有時會檢測到 pdf 的每一頁，有時只檢測到 pdf 的第一頁。我什至在上一篇關於 stackoverflow 的文章中包含了這一行。任何時候我的腳本只提取第一頁，腳本只檢測到一頁。我什至嘗試過另一個庫（ PyPDF2 ） ...

從 tika-server 獲取 hocr 輸出

[英]getting hocr output from tika-server

我正在使用 Apache TIKA 服務器對 PDF 文件進行 OCR。我對hOCR輸出感興趣，但只能成功獲得純文本格式的輸出。按照wiki和代碼，我嘗試使用X-Tika-OCR... HTTP 標頭配置 Tesseract。在這種情況下，我使用X-Tika-OCRoutputType: ...

將 HOCR 輸出轉換為字符串的策略是什么（用於正則表達式）？

[英]What are the strategies to convert an HOCR output to a string (for regex purposes)?

我正在使用 Pytesseract 並希望將 HOCR 輸出轉換為字符串。當然，這樣的功能是在 Pytesseract 中實現的，但我想更多地了解完成它的可能策略 thx from pytesseract import image_to_pdf_or_hocr hocr_output = imag ...

使用Python將hOCR解析為JSON

[英]Parsing hOCR to JSON with Python

我正在使用tesseract-ocr，並以hOCR格式獲取輸出。我需要將此hOCR輸出存儲到數據庫（在我的情況下為PostgreSQL）。由於我可能需要分別從此hOCR中獲取每條信息（其中的80％），這是正確的方法嗎？應該將其存儲為XML數據類型還是解析為JSON並存儲？並且 ...

從tesseract hocr xhtml文件中提取數據

[英]Extract data from tesseract hocr xhtml file

我正在嘗試使用Python從Tesseract的hocr輸出文件中提取數據。我們僅限於tesseact版本3.04，因此沒有image_to_data函數或tsv輸出可用。我已經能夠使用beautifulsoup和R來做到這一點，但這在需要部署它的環境中都不可用。我只是試圖提取單詞“ ...

帶有 Tesseract 的 hOCR 文件/確定 PDF 是否具有高質量的文本層

[英]hOCR Files with Tesseract / Determining if a PDF has high quality text layers

我有一個 Tesseract 4.0 設置，我們正在使用用於 OCR 的 LSTM 模型；傳入的掃描 PDF 被解構為單獨的 300dpi 上采樣 PNG，然后進行糾偏和 OCR 處理，然后重新組裝成帶有文本層的 PDF，同時還將每個頁面保存為 PNG，以便在 Web 瀏覽器中進一步顯示。有時 ...

在hocr輸出中獲取確切的字體大小

[英]Getting exact font size in hocr output

我正在使用Tesseract從如下所示的大量頁面中提取文本和格式：具有不同行高的OCR文本示例頁面（我的原始圖像是1200 DPI；我已經減少到600 DPI，並重新編碼以保持文件大小正常。）當這本書使用塊引號（例如，占據該頁面左列大部分的引號）時，最顯着的區別是稍小的字 ...

通過ElementTree提取文本

[英]Extracting text by ElementTree

我嘗試運行以下代碼以從XML文件中提取所有文本：請注意“word_1_14” - 其中word.text被發現為Nonetype，因此沒有打印出來...我發現這是因為文本帶有強標簽，因此使其不可見。你知道如何找到帶有強標簽的單詞並將其打印出來嗎？這一行有問題 - 看來word ...

C＃使用Charlesw Tesseract生成hocr文件

[英]c# generate hocr file using charlesw tesseract

我如何在這里使用tesseract包裝器生成hocr 目前，我需要將tessdata的位置動態添加到環境變量中並運行我的代碼然后我找到了tesseract包裝紙。如何使用包裝器生成hocr文件？我找不到如何做的例子。這是我正在使用的當前代碼（來自示例），但如何輸出 ...

用於可視化的HOCR到HTML

[英]HOCR to HTML for visualizing

如何將hOCR轉換為HTML以進行可視化？如果打開原始hOCR文件，它只會呈現為純文本（元素未定位） ...

如何使用 python-tesseract 獲取 Hocr output

[英]How to get Hocr output using python-tesseract

我一直在使用 pytesseract 獲得非常好的結果，但它無法保留雙空格，它們對我來說真的很重要。而且，所以我決定檢索 hocr output 而不是純文本。但是；似乎沒有任何方法可以使用 pytessearct 指定配置文件。那么，是否可以使用 pytesseract 指定配置文件，或者是 ...

將hOCR轉換為HTML表

[英]Convert hOCR to HTML table

我正在尋找一個工具或想法在python中實現，將hOCR文件（由應用程序的tesseract生成）轉換為html表。這個想法是利用hOCR文件中的文本位置信息（在bbox屬性中提供）來創建基於所提供位置的表。我提供了一個解釋上述想法的例子：我使用SlideShare.net中的這 ...

如何使用 Tesseract 分割文檔然后輸出生成的邊界框和標簽

[英]How do I segment a document using Tesseract then output the resulting bounding boxes and labels

我試圖讓 Tesseract 輸出一個帶有標記邊界框的文件，這些邊界框是由頁面分割（OCR 前）產生的。我知道它必須能夠“開箱即用”，因為在 ICDAR 比賽中顯示的結果，參賽者必須分割和各種文件（學術論文在這里）。這是該論文中的一個示例，說明了我想要創建的內容：我已經使用 brew 構建 ...

Tesseract hOCR iOS

[英]Tesseract hOCR iOS

我正在學習如何使用Tesseract API，並且對hOCR輸出功能很感興趣。目前，我正在使用此代碼來掃描圖像。一切都可以正常編譯，但是我想知道如何存儲hOCR函數返回的.html。我可以將其存儲在變量中嗎？生成文件后，我需要能夠在程序中訪問該文件。任何有關如何在iOS ...

Tesseract hOCR：如何檢測倒掛？

[英]Tesseract hOCR: How to detect upside down?

（我將在此處回答我自己的問題以獲取常識）在Tesseract OCR中，如何檢測倒置的圖像？與Tesseract合作的人可能知道也可能不知道Tesseract 可以讀取顛倒呈現的圖像。但是，問題在於，如果您使用hOCR輸出，則您不知道它是顛倒的，因為在文檔中沒有提到。 ...