[英]Using Tesseract OCR with Solr 9.1
我有一個正在運行的設置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)並從 Tesseract (5.2.0) 獲取 OCR。
為此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties
tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan
我現在正在嘗試使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安裝復制設置,文件正在被提取,但我沒有得到任何 OCR。
在 9.1.0 中,我在提取 jpg 文件時得到以下信息:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.jpeg.JpegParser"],
在 8.11.2 的設置中,我在提取相同的 jpg 時得到以下信息:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.ocr.TesseractOCRParser",
"org.apache.tika.parser.jpeg.JpegParser"],
開啟9.x默認開啟的安全管理器,可以通過設置環境變量來實現:
SOLR_SECURITY_MANAGER_ENABLED=false
問題是org.apache.tika.parser.ocr.TesseractOCRParser
需要對安裝 tesseract 的文件夾的執行權限。
當確定是否應該加載 TesseractOCRParser 時,它會檢查它是否可以根據配置定位和調用 Tesseract,用於查看它是否可以執行外部解析器的check
方法會捕獲SecurityException
等異常,並且只返回 false 而沒有任何日志記錄,所以有即使您打開日志記錄,也沒有跡象表明配置有誤。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.