將 Tesseract OCR 與 Solr 9.1 結合使用

Question

我有一個正在運行的設置，我可以在其中提取 Solr（8.11.2 和 tika 1.27）並從 Tesseract (5.2.0) 獲取 OCR。

為此，我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我現在正在嘗試使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安裝復制設置，文件正在被提取，但我沒有得到任何 OCR。

在 9.1.0 中，我在提取 jpg 文件時得到以下信息：

  "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在 8.11.2 的設置中，我在提取相同的 jpg 時得到以下信息：

    "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],

Answer 1

開啟9.x默認開啟的安全管理器，可以通過設置環境變量來實現：

SOLR_SECURITY_MANAGER_ENABLED=false

問題是org.apache.tika.parser.ocr.TesseractOCRParser需要對安裝 tesseract 的文件夾的執行權限。

當確定是否應該加載 TesseractOCRParser 時，它會檢查它是否可以根據配置定位和調用 Tesseract，用於查看它是否可以執行外部解析器的check方法會捕獲SecurityException等異常，並且只返回 false 而沒有任何日志記錄，所以有即使您打開日志記錄，也沒有跡象表明配置有誤。

將 Tesseract OCR 與 Solr 9.1 結合使用

問題描述

1 個解決方案

解決方案1
0 已采納 2023-01-31 16:54:03

將 Tesseract OCR 與 Solr 9.1 結合使用

問題描述

1 個解決方案

解決方案1 0 已采納 2023-01-31 16:54:03

解決方案1
0 已采納 2023-01-31 16:54:03