[英]Using Tika in Python and Regular Expression To Extract Text From PDF
我正在嘗試使用 Python 中的 Tika 從 PDF 中提取特定信息。我嘗試將正則表達式合並到代碼中,但它返回錯誤。 這是我的代碼: 返回錯誤如下: 是否有修復錯誤的解決方案以及可以將正則表達式傳遞到代碼中的方法? ...
[英]Using Tika in Python and Regular Expression To Extract Text From PDF
我正在嘗試使用 Python 中的 Tika 從 PDF 中提取特定信息。我嘗試將正則表達式合並到代碼中,但它返回錯誤。 這是我的代碼: 返回錯誤如下: 是否有修復錯誤的解決方案以及可以將正則表達式傳遞到代碼中的方法? ...
[英]How to create workbook in Jmeter using JSR223 or beanshell sampler?
嘗試在 Jmeter 中創建工作簿時出現錯誤。我正在使用“tika-app.jar”創建工作簿后,我想在 excel xlx 文件中寫入數據。 下面是我的 JSR223 采樣器: 我得到的錯誤響應如下: 有人可以幫忙嗎 ...
[英]Upgrading tika-app from 1.28.1 to 1.28.2 (or greater) generates invalid .xlsx files
我在 JMeter 5.5 中有 groovy 代碼,它采用 Excel 模板,然后用數據填充它。 由於 tika-app 庫中的安全漏洞,我們被要求升級到更新版本的 tika-app。 但是,當我們升級到高於 1.28.1 的 tika-app 版本時,我們的代碼會生成 excel 文件,但被測系 ...
[英]Using Tesseract OCR with Solr 9.1
我有一個正在運行的設置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)並從 Tesseract (5.2.0) 獲取 OCR。 為此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties 我現在正在嘗試使用 sol ...
[英]Unable to access pdf document via requests or selenium
我有一個巨大的 URL 列表,每個 URL 加載不同的 PDF 文檔。 這是其中之一: https://ccmspa.pinellascounty.org/PublicAccess/ViewDocumentFragment.aspx?DocumentFragmentID=74223655&C ...
[英]Increase OCR timeout in TIKA
在最新的 Tika:2.5 中,默認 OCR 超時為 300 - 如果多個並行處理的文檔或圖像執行 OCR 會導致 Tika OCR 超時,因此 Tika 對完整文檔的異常是不夠的。 我試過添加 X-Tika-Timeout-Millis header 但它的擴展不能超過服務器上設置的值。 我怎樣才 ...
[英]Issue using Apache tika parser when trying to parse pdf having text contains image
我正在使用這兩個依賴項:- tika core 2.6.0 tika parser standard package 2.6.0.Parsing 在這些情況下工作正常:- pdf 帶文本的文件。 pdf 帶圖像的文件。 文本文件和其他擴展名。 對於以下用例,解析失敗並出現 pdfparser 運行 ...
[英]Apache Tika cannot detect MIME type properly
我正在嘗試使用Apache Tika上傳文件時檢測文件類型,如下所示: 對於某些文件擴展名,例如*.acc ,Apache Tika 將文件類型檢測為application/octet-stream 。 所以,在這種情況下: 1.是否有正確檢測某些文件類型(例如*.acc )並獲取其確切文件類型( ...
[英]Latest Tesseract in Tika
Tesseract 的最新可用版本是 5.x。 但最新的 tika 仍在使用 4.x。 是否可以在 Tika 中升級 tesseractOCR 版本? ...
[英]Print headings of a word document (docx)
在一個 docx 文檔中,我希望能夠獲得一個包含文件中所有標題(章節)的列表。 每個具有“標題 1”、“標題 2”等的文本。這是 word 文件: 我正在使用 apache POI 讀入文件。 但是,當我嘗試從段落或運行中獲取樣式時,它總是返回 NULL。 Output: 所以問題是,如果我無 ...
[英]Java Tika cannot get embedded files from rar file
使用標准實現,我傳遞了一個 doc 文件,其中有一個 image.png 圖像和文本。 使用標准實現,我傳遞了一個 doc 文件,其中有一個 image.png 圖像和文本為了獲取文件,Tika 使用了內部ParsingEmbeddedDocumentExtractor class,其中使用了par ...
[英]How can I use Tika Parsers in Tika Core?
我在我的項目中使用 tika-core v.1.25: 當我需要解析我的文件時,我使用 AutoDetectParser: AutoDetectParser 位於項目 tika-core: 但同時,此 class AutoDetectParser 不與項目 tika-parsers 中的類交互。 ...
[英]How to make uploaded PDF text searchable in Apache Sling
我正在探索 Apache Sling 11 來構建更多內容驅動的 web 應用程序。 我有一個頁面,文件(pdf/txt/doc)可以作為nt-file上傳到路徑/content/company/uploads 。 在搜索模塊中,我使用 JCR 查詢來搜索特定文本,並且我希望 PDF/TXT 文件中 ...
[英]Replace the img tag with the text of the corresponding ocr tag
我有一個 docx 文件,從中提取它包含的所有文本。 該文件包含許多圖像,多虧了 tika,我可以從文檔中提取文本以及從圖像中提取文本。 我需要的是用相應的文本替換圖像標簽。 我正在使用 python 和 beatifulsoup 來做到這一點。 我把 xml 文件留在這里,看看是否有人可以幫 ...
[英]How to enable debug logs in Apache Tika 2.4.0
想要在 Apache tika 容器中啟用調試日志。 嘗試通過 tika-config.xml 遵循 Tika 配置配置,但沒有看到打印任何調試日志。 ...
[英]How to deal with large pdf?
我正在嘗試使用此代碼從大型 pdf 中提取文本(我的文件來自 azure 上的 blob,pdf 需要 7.3mb,它有 140 頁,它們都是圖像)並且它總是達到超時。 os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/' head ...
[英]Tika server returned 500 status code when processing a pdf file
代碼 : tika .py 中的第 554 行 相應的原因是 INKApi 錯誤。 我在我的系統上運行 tika 服務器。 ...
[英]Can not extract text via Apache Tika using Lucee
我想通過 Lucee 5+ (5.2.9) 從 pdf、docx 等中提取文本,但不幸的是我得到了空的結果集。 我使用了幾個可能適合我特定的 Lucee 和 Java 要求的Apache Tika 版本(Java 1.8.0 的可運行 jar),但結果集始終為空。 提取物.cfc 以及我用來運 ...
[英]How to further process a buggy / malformed PDF that cannot be parsed by Tika / PDFBox but can by Evince / Libre Office Draw?
我的程序正在使用 Tika 2.24 讀取文檔以提取其內容。 然而,盡管 Evince、Libre Office Draw 甚至 Gimp 可以打開它們,但某些 PDF(可能有錯誤或格式錯誤)無法由 PDFBox 處理。 我無法共享這些 PDF,但我可以說的是,它們曾經觸發StackOverFlo ...
[英]Cannot get image content from tika api using .net
當我們從 postman 應用程序調用時,我們正在從 tika api(2.3.0) 獲取圖像內容。 但是,當我們從 .net 代碼調用時,相同的調用會返回其他內容。 Postman API 致電 .net 代碼如下 .net代碼返回200響應,output值如下: 奇怪的是,它由 org.ap ...