簡體   English   中英

通過 SOLR 對 Tesseract 的 OCR 支持

[英]OCR Support with Tesseract via SOLR

美好的一天,我正在嘗試配置SOLR以使用Tesseract OCR引擎從圖像中提取文本,但還沒有成功。

SOLR 從結構化文本文檔(.xls、.pdf、doc 等)中提取精細文本,但它不想調用 Tesseract 模塊進行文本識別。

我正在使用

  • SOLR v.7.4.0
  • Tesseract 版本 4.1.1
  • TIKA 1.18 版本(SOLR 內置,無獨立版本)

Tesseract 安裝在以下目錄中:

/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

命令tesseract test.jpg test.txt使用test.jpg 中的 OCR內容生成准確的 txt 文件。

solrconfig.xmlTesseractOCRConfig.propertiesParseContent.xml文件被修改為指向Tesseract安裝。

有沒有人做過這樣的配置?

美好的一天,我們解決了這個問題。 以下是使用和更改的內容:在我們的安裝中,我們使用了 Tesseract 3.05 版、Tika 1.17 版、SOLR 7.4 版。 實際上,我們擁有 TIKA 1.17 版,而不是 18 版。 1. 在 parseContext.xml 文件中從 HOCR 更改為 TXT >>> 2. 必須以 root 用戶身份啟動 SOLR。 4.1.1 版本與 TIKA 1.17 不兼容,因此我們將 SOLR 升級到 7.7 版,TIKA 1.19 版並嘗試安裝 Tesseract 4.1.1在此處輸入圖片說明

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM