cost 96 ms
如何使用 fop 將 Tesseract 軟件輸出(hocr)轉換為純 txt 文件(生成零輸出)?

[英]How to convert Tesseract software output (hocr) into plain txt file with fop (generates zero output)?

結果輸出:一個帶有空行的 txt 文件。 預期輸出:一個 txt 文件,其中包含“Привет Мир! Это я, обычный неработающий текст или рыба”文本。 我究竟做錯了什么? 嘗試嵌套的 xsl:for-each 代碼會給出相同的行為。 ...

Windows Tesseract OCR 得到分散的 HOCR 輸出而不是干凈的標准格式

[英]Windows Tesseract OCR getting scattered HOCR out put instead of clean standard format

非常感謝快速幫助。 我正在通過 tesseract-OCR 從 tiff 圖像中提取文本。 我要找的 output 是.HOCR (HTML)。 就內容而言,我得到了完美的 output,但格式看起來非常雜亂無章。 但是當我用記事本++打開時,它給出了一個干凈的格式。 下面給出windows命令行 ...

來自 OCRmyPDF 的 hOCR output

[英]hOCR output from OCRmyPDF

我正在運行 OCRmyPDF 從掃描的 PDF 創建可搜索的 PDF,它對我來說工作得很好。 我只想將掃描的 PDF 的每一頁的 hOCR output 保存在我的本地目錄中。 我怎樣才能做到這一點? ...

將 Google Cloud Vision OCR X 和 Y 坐標轉換為 bbox 坐標

[英]Converting Google Cloud Vision OCR X and Y Co-ordinates to bbox Co-ordinates

Google Cloud Vision OCR 具有以下 Output 用於邊界框 Object。 邊界框所需的 Output 格式我想提前 go 並將這些坐標轉換為邊界框坐標以將它們寫入我的 hOCR 格式。 其中包括以下格式,用於在文件中寫入這些格式。 問題? 那么如何將這些 x 和 y 坐標 ...

檢測圖像中的粗體(和斜體)文本

[英]Detecting bold (and italic) text in an image

我想檢測頁面圖像中的粗體(可能還有斜體)文本——想想 TIFF 或圖像 PDF。 我需要指向任何這樣做的開源軟件的指針。 這是一個字典條目的圖片(來自 Tzeltal--西班牙語詞典),說明了這樣的文本: 第一行是粗體,然后是斜體,然后是“正常”; 第二個有幾個粗體字,然后是幾個正常字體。 格式表 ...

2021-05-17 22:33:04   1   162    ocr / hocr  
PDFMiner 未檢測到所有頁面

[英]PDFMiner does not detect all pages

我正在嘗試從 pdf 中提取文本,但我遇到了一個錯誤,因為我的腳本有時會檢測到 pdf 的每一頁,有時只檢測到 pdf 的第一頁。 我什至在上一篇關於 stackoverflow 的文章中包含了這一行。 任何時候我的腳本只提取第一頁,腳本只檢測到一頁。 我什至嘗試過另一個庫( PyPDF2 ) ...

從 tika-server 獲取 hocr 輸出

[英]getting hocr output from tika-server

我正在使用 Apache TIKA 服務器對 PDF 文件進行 OCR。 我對hOCR輸出感興趣,但只能成功獲得純文本格式的輸出。 按照wiki和代碼,我嘗試使用X-Tika-OCR... HTTP 標頭配置 Tesseract。 在這種情況下,我使用X-Tika-OCRoutputType: ...

使用Python將hOCR解析為JSON

[英]Parsing hOCR to JSON with Python

我正在使用tesseract-ocr,並以hOCR格式獲取輸出。 我需要將此hOCR輸出存儲到數據庫(在我的情況下為PostgreSQL)。 由於我可能需要分別從此hOCR中獲取每條信息(其中的80%),這是正確的方法嗎? 應該將其存儲為XML數據類型還是解析為JSON並存儲? 並且 ...

從tesseract hocr xhtml文件中提取數據

[英]Extract data from tesseract hocr xhtml file

我正在嘗試使用Python從Tesseract的hocr輸出文件中提取數據。 我們僅限於tesseact版本3.04,因此沒有image_to_data函數或tsv輸出可用。 我已經能夠使用beautifulsoup和R來做到這一點,但這在需要部署它的環境中都不可用。 我只是試圖提取單詞“ ...

帶有 Tesseract 的 hOCR 文件/確定 PDF 是否具有高質量的文本層

[英]hOCR Files with Tesseract / Determining if a PDF has high quality text layers

我有一個 Tesseract 4.0 設置,我們正在使用用於 OCR 的 LSTM 模型; 傳入的掃描 PDF 被解構為單獨的 300dpi 上采樣 PNG,然后進行糾偏和 OCR 處理,然后重新組裝成帶有文本層的 PDF,同時還將每個頁面保存為 PNG,以便在 Web 瀏覽器中進一步顯示。 有時 ...

在hocr輸出中獲取確切的字體大小

[英]Getting exact font size in hocr output

我正在使用Tesseract從如下所示的大量頁面中提取文本和格式: 具有不同行高的OCR文本示例頁面 (我的原始圖像是1200 DPI;我已經減少到600 DPI,並重新編碼以保持文件大小正常。) 當這本書使用塊引號(例如,占據該頁面左列大部分的引號)時,最顯着的區別是稍小的字 ...

<strong>通過ElementTree</strong>提取<strong>文本</strong>

[英]Extracting <strong> text by ElementTree

我嘗試運行以下代碼以從XML文件中提取所有文本: 請注意“word_1_14” - 其中word.text被發現為Nonetype,因此沒有打印出來...我發現這是因為文本帶有強標簽,因此使其不可見。 你知道如何找到帶有強標簽的單詞並將其打印出來嗎? 這一行有問題 - 看來word ...

C#使用Charlesw Tesseract生成hocr文件

[英]c# generate hocr file using charlesw tesseract

我如何在這里使用tesseract包裝器生成hocr 目前,我需要將tessdata的位置動態添加到環境變量中並運行我的代碼 然后我找到了tesseract包裝紙。 如何使用包裝器生成hocr文件? 我找不到如何做的例子。 這是我正在使用的當前代碼(來自示例),但如何輸出 ...

用於可視化的HOCR到HTML

[英]HOCR to HTML for visualizing

如何將hOCR轉換為HTML以進行可視化? 如果打開原始hOCR文件,它只會呈現為純文本(元素未定位) ...

2016-07-13 20:35:22   3   4376    html / ocr / hocr  
如何使用 python-tesseract 獲取 Hocr output

[英]How to get Hocr output using python-tesseract

我一直在使用 pytesseract 獲得非常好的結果,但它無法保留雙空格,它們對我來說真的很重要。 而且,所以我決定檢索 hocr output 而不是純文本。但是;似乎沒有任何方法可以使用 pytessearct 指定配置文件。 那么,是否可以使用 pytesseract 指定配置文件,或者是 ...

將hOCR轉換為HTML表

[英]Convert hOCR to HTML table

我正在尋找一個工具或想法在python中實現,將hOCR文件(由應用程序的tesseract生成)轉換為html表。 這個想法是利用hOCR文件中的文本位置信息(在bbox屬性中提供)來創建基於所提供位置的表。 我提供了一個解釋上述想法的例子: 我使用SlideShare.net中的這 ...

如何使用 Tesseract 分割文檔然后輸出生成的邊界框和標簽

[英]How do I segment a document using Tesseract then output the resulting bounding boxes and labels

我試圖讓 Tesseract 輸出一個帶有標記邊界框的文件,這些邊界框是由頁面分割(OCR 前)產生的。 我知道它必須能夠“開箱即用”,因為在 ICDAR 比賽中顯示的結果,參賽者必須分割和各種文件( 學術論文在這里)。 這是該論文中的一個示例,說明了我想要創建的內容: 我已經使用 brew 構建 ...

Tesseract hOCR iOS

[英]Tesseract hOCR iOS

我正在學習如何使用Tesseract API,並且對hOCR輸出功能很感興趣。 目前,我正在使用此代碼來掃描圖像。 一切都可以正常編譯,但是我想知道如何存儲hOCR函數返回的.html。 我可以將其存儲在變量中嗎? 生成文件后,我需要能夠在程序中訪問該文件。 任何有關如何在iOS ...

Tesseract hOCR:如何檢測倒掛?

[英]Tesseract hOCR: How to detect upside down?

(我將在此處回答我自己的問題以獲取常識) 在Tesseract OCR中,如何檢測倒置的圖像? 與Tesseract合作的人可能知道也可能不知道Tesseract 可以讀取顛倒呈現的圖像。 但是,問題在於,如果您使用hOCR輸出,則您不知道它是顛倒的,因為在文檔中沒有提到。 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM