簡體   English   中英

如何使用 fop 將 Tesseract 軟件輸出(hocr)轉換為純 txt 文件(生成零輸出)?

[英]How to convert Tesseract software output (hocr) into plain txt file with fop (generates zero output)?

結果輸出:一個帶有空行的 txt 文件。

預期輸出:一個 txt 文件,其中包含“Привет Мир! Это я, обычный неработающий текст или рыба”文本。

我究竟做錯了什么? 嘗試嵌套的 xsl:for-each 代碼會給出相同的行為。

我在您的嘗試中發現了 2 個問題:

  1. 您的指示:

     <xsl:for-each select="//div [@class='ocr_page'] /div [@class='ocr_carea'] / p [@class='ocr_par'] / span[@class='ocr_line'] / span [@class='ocrx_word']">

    什么都不選擇,因為您的輸入 XML 將其所有元素都放在一個命名空間中。 請參閱此處如何解決此問題。

  2. 一旦你讓它工作,這個指令將把你放在span的上下文中。 在這種情況下,您的下一條指令:

     <xsl:value-of select="normalize-space(span [@class='ocrx_word'])" disable-output-escaping="yes"/>

    也沒有選擇任何內容,因為span不是它自己的孩子。 它應該是:

     <xsl:value-of select="normalize-space(.)"/>

    而且我懷疑您是否想在生成 XML 結果的樣式表中禁用輸出轉義。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM