標簽[apache-tika] - 堆棧內存溢出

在 Python 中使用 Tika 和正則表達式從 PDF 中提取文本

[英]Using Tika in Python and Regular Expression To Extract Text From PDF

我正在嘗試使用 Python 中的 Tika 從 PDF 中提取特定信息。我嘗試將正則表達式合並到代碼中，但它返回錯誤。這是我的代碼：返回錯誤如下：是否有修復錯誤的解決方案以及可以將正則表達式傳遞到代碼中的方法？ ...

如何使用 JSR223 或 beanshell 采樣器在 Jmeter 中創建工作簿？

[英]How to create workbook in Jmeter using JSR223 or beanshell sampler?

嘗試在 Jmeter 中創建工作簿時出現錯誤。我正在使用“tika-app.jar”創建工作簿后，我想在 excel xlx 文件中寫入數據。下面是我的 JSR223 采樣器：我得到的錯誤響應如下：有人可以幫忙嗎 ...

將 tika-app 從 1.28.1 升級到 1.28.2（或更高版本）會生成無效的 .xlsx 文件

[英]Upgrading tika-app from 1.28.1 to 1.28.2 (or greater) generates invalid .xlsx files

我在 JMeter 5.5 中有 groovy 代碼，它采用 Excel 模板，然后用數據填充它。由於 tika-app 庫中的安全漏洞，我們被要求升級到更新版本的 tika-app。但是，當我們升級到高於 1.28.1 的 tika-app 版本時，我們的代碼會生成 excel 文件，但被測系 ...

將 Tesseract OCR 與 Solr 9.1 結合使用

[英]Using Tesseract OCR with Solr 9.1

我有一個正在運行的設置，我可以在其中提取 Solr（8.11.2 和 tika 1.27）並從 Tesseract (5.2.0) 獲取 OCR。為此，我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties 我現在正在嘗試使用 sol ...

無法通過請求或 selenium 訪問 pdf 文檔

[英]Unable to access pdf document via requests or selenium

我有一個巨大的 URL 列表，每個 URL 加載不同的 PDF 文檔。這是其中之一： https://ccmspa.pinellascounty.org/PublicAccess/ViewDocumentFragment.aspx?DocumentFragmentID=74223655&C ...

增加 TIKA 中的 OCR 超時

[英]Increase OCR timeout in TIKA

在最新的 Tika:2.5 中，默認 OCR 超時為 300 - 如果多個並行處理的文檔或圖像執行 OCR 會導致 Tika OCR 超時，因此 Tika 對完整文檔的異常是不夠的。我試過添加 X-Tika-Timeout-Millis header 但它的擴展不能超過服務器上設置的值。我怎樣才 ...

嘗試解析文本包含圖像的 pdf 時使用 Apache tika 解析器的問題

[英]Issue using Apache tika parser when trying to parse pdf having text contains image

我正在使用這兩個依賴項：- tika core 2.6.0 tika parser standard package 2.6.0.Parsing 在這些情況下工作正常：- pdf 帶文本的文件。 pdf 帶圖像的文件。文本文件和其他擴展名。對於以下用例，解析失敗並出現 pdfparser 運行 ...

Apache Tika 無法正確檢測 MIME 類型

[英]Apache Tika cannot detect MIME type properly

我正在嘗試使用Apache Tika上傳文件時檢測文件類型，如下所示：對於某些文件擴展名，例如*.acc ，Apache Tika 將文件類型檢測為application/octet-stream 。所以，在這種情況下： 1.是否有正確檢測某些文件類型（例如*.acc ）並獲取其確切文件類型（ ...

Tika 中的最新 Tesseract

[英]Latest Tesseract in Tika

Tesseract 的最新可用版本是 5.x。但最新的 tika 仍在使用 4.x。是否可以在 Tika 中升級 tesseractOCR 版本？ ...

打印word文檔的標題（docx）

[英]Print headings of a word document (docx)

在一個 docx 文檔中，我希望能夠獲得一個包含文件中所有標題（章節）的列表。每個具有“標題 1”、“標題 2”等的文本。這是 word 文件：我正在使用 apache POI 讀入文件。但是，當我嘗試從段落或運行中獲取樣式時，它總是返回 NULL。 Output：所以問題是，如果我無 ...

Java Tika 無法從 rar 文件中獲取嵌入文件

[英]Java Tika cannot get embedded files from rar file

使用標准實現，我傳遞了一個 doc 文件，其中有一個 image.png 圖像和文本。使用標准實現，我傳遞了一個 doc 文件，其中有一個 image.png 圖像和文本為了獲取文件，Tika 使用了內部ParsingEmbeddedDocumentExtractor class，其中使用了par ...

如何在 Tika Core 中使用 Tika 解析器？

[英]How can I use Tika Parsers in Tika Core?

我在我的項目中使用 tika-core v.1.25：當我需要解析我的文件時，我使用 AutoDetectParser： AutoDetectParser 位於項目 tika-core：但同時，此 class AutoDetectParser 不與項目 tika-parsers 中的類交互。 ...

如何使上傳的 PDF 文本在 Apache 吊索中可搜索

[英]How to make uploaded PDF text searchable in Apache Sling

我正在探索 Apache Sling 11 來構建更多內容驅動的 web 應用程序。我有一個頁面，文件（pdf/txt/doc）可以作為nt-file上傳到路徑/content/company/uploads 。在搜索模塊中，我使用 JCR 查詢來搜索特定文本，並且我希望 PDF/TXT 文件中 ...

將img標簽替換為對應ocr標簽的文本

[英]Replace the img tag with the text of the corresponding ocr tag

我有一個 docx 文件，從中提取它包含的所有文本。該文件包含許多圖像，多虧了 tika，我可以從文檔中提取文本以及從圖像中提取文本。我需要的是用相應的文本替換圖像標簽。我正在使用 python 和 beatifulsoup 來做到這一點。我把 xml 文件留在這里，看看是否有人可以幫 ...

如何在 Apache Tika 2.4.0 中啟用調試日志

[英]How to enable debug logs in Apache Tika 2.4.0

想要在 Apache tika 容器中啟用調試日志。嘗試通過 tika-config.xml 遵循 Tika 配置配置，但沒有看到打印任何調試日志。 ...

如何處理大pdf？

[英]How to deal with large pdf?

我正在嘗試使用此代碼從大型 pdf 中提取文本（我的文件來自 azure 上的 blob，pdf 需要 7.3mb，它有 140 頁，它們都是圖像）並且它總是達到超時。 os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/' head ...

Tika 服務器在處理 pdf 文件時返回 500 狀態碼

[英]Tika server returned 500 status code when processing a pdf file

代碼： tika .py 中的第 554 行相應的原因是 INKApi 錯誤。我在我的系統上運行 tika 服務器。 ...

無法使用 Lucee 通過 Apache Tika 提取文本

[英]Can not extract text via Apache Tika using Lucee

我想通過 Lucee 5+ (5.2.9) 從 pdf、docx 等中提取文本，但不幸的是我得到了空的結果集。我使用了幾個可能適合我特定的 Lucee 和 Java 要求的Apache Tika 版本（Java 1.8.0 的可運行 jar），但結果集始終為空。提取物.cfc 以及我用來運 ...

如何進一步處理 Tika / PDFBox 無法解析但 Evince / Libre Office Draw 可以解析的錯誤/格式錯誤的 PDF？

[英]How to further process a buggy / malformed PDF that cannot be parsed by Tika / PDFBox but can by Evince / Libre Office Draw?

我的程序正在使用 Tika 2.24 讀取文檔以提取其內容。然而，盡管 Evince、Libre Office Draw 甚至 Gimp 可以打開它們，但某些 PDF（可能有錯誤或格式錯誤）無法由 PDFBox 處理。我無法共享這些 PDF，但我可以說的是，它們曾經觸發StackOverFlo ...

無法使用 .net 從 tika api 獲取圖像內容

[英]Cannot get image content from tika api using .net

當我們從 postman 應用程序調用時，我們正在從 tika api(2.3.0) 獲取圖像內容。但是，當我們從 .net 代碼調用時，相同的調用會返回其他內容。 Postman API 致電 .net 代碼如下 .net代碼返回200響應，output值如下：奇怪的是，它由 org.ap ...