簡體   English   中英

將 Tesseract OCR 與 Solr 9.1 結合使用

[英]Using Tesseract OCR with Solr 9.1

我有一個正在運行的設置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)並從 Tesseract (5.2.0) 獲取 OCR。

為此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我現在正在嘗試使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安裝復制設置,文件正在被提取,但我沒有得到任何 OCR。

在 9.1.0 中,我在提取 jpg 文件時得到以下信息:

  "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在 8.11.2 的設置中,我在提取相同的 jpg 時得到以下信息:

    "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],

開啟9.x默認開啟的安全管理器,可以通過設置環境變量來實現:

SOLR_SECURITY_MANAGER_ENABLED=false

問題是org.apache.tika.parser.ocr.TesseractOCRParser需要對安裝 tesseract 的文件夾的執行權限。

當確定是否應該加載 TesseractOCRParser 時,它會檢查它是否可以根據配置定位和調用 Tesseract,用於查看它是否可以執行外部解析器的check方法會捕獲SecurityException等異常,並且只返回 false 而沒有任何日志記錄,所以有即使您打開日志記錄,也沒有跡象表明配置有誤。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM