[英]How to convert Tesseract software output (hocr) into plain txt file with fop (generates zero output)?
結果輸出:一個帶有空行的 txt 文件。
預期輸出:一個 txt 文件,其中包含“Привет Мир! Это я, обычный неработающий текст или рыба”文本。
我究竟做錯了什么? 嘗試嵌套的 xsl:for-each 代碼會給出相同的行為。
我在您的嘗試中發現了 2 個問題:
您的指示:
<xsl:for-each select="//div [@class='ocr_page'] /div [@class='ocr_carea'] / p [@class='ocr_par'] / span[@class='ocr_line'] / span [@class='ocrx_word']">
什么都不選擇,因為您的輸入 XML 將其所有元素都放在一個命名空間中。 請參閱此處如何解決此問題。
一旦你讓它工作,這個指令將把你放在span
的上下文中。 在這種情況下,您的下一條指令:
<xsl:value-of select="normalize-space(span [@class='ocrx_word'])" disable-output-escaping="yes"/>
也沒有選擇任何內容,因為span
不是它自己的孩子。 它應該是:
<xsl:value-of select="normalize-space(.)"/>
而且我懷疑您是否想在生成 XML 結果的樣式表中禁用輸出轉義。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.