通過 SOLR 對 Tesseract 的 OCR 支持

Question

美好的一天，我正在嘗試配置SOLR以使用Tesseract OCR引擎從圖像中提取文本，但還沒有成功。

SOLR 從結構化文本文檔（.xls、.pdf、doc 等）中提取精細文本，但它不想調用 Tesseract 模塊進行文本識別。

我正在使用

SOLR v.7.4.0
Tesseract 版本 4.1.1
TIKA 1.18 版本（SOLR 內置，無獨立版本）

Tesseract 安裝在以下目錄中：

/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

命令tesseract test.jpg test.txt使用test.jpg 中的 OCR內容生成准確的 txt 文件。

solrconfig.xml 、 TesseractOCRConfig.properties 、 ParseContent.xml文件被修改為指向Tesseract安裝。

有沒有人做過這樣的配置？

Answer 1

美好的一天，我們解決了這個問題。 以下是使用和更改的內容：在我們的安裝中，我們使用了 Tesseract 3.05 版、Tika 1.17 版、SOLR 7.4 版。 實際上，我們擁有 TIKA 1.17 版，而不是 18 版。 1. 在 parseContext.xml 文件中從 HOCR 更改為 TXT >>> 2. 必須以 root 用戶身份啟動 SOLR。 4.1.1 版本與 TIKA 1.17 不兼容，因此我們將 SOLR 升級到 7.7 版，TIKA 1.19 版並嘗試安裝 Tesseract 4.1.1在此處輸入圖片說明

通過 SOLR 對 Tesseract 的 OCR 支持

問題描述

1 個解決方案

解決方案1
1 2020-01-22 08:34:54

通過 SOLR 對 Tesseract 的 OCR 支持

問題描述

1 個解決方案

解決方案1 1 2020-01-22 08:34:54

解決方案1
1 2020-01-22 08:34:54