簡體   English   中英

使用 Algolia 搜索(提取文本)PDF 文件

[英]Searching (extracting text) PDF files with Algolia

對於擁有大量 PDF 文件的客戶來說,這只是一個推測性的想法。

Algolia 在他們的常見問題解答中說,要搜索 PDF 文件,您首先需要從文件中提取文本。 你會怎么做?

我設想的系統工作方式是:

  • 客戶通過 CMS 上傳 PDF
  • CMS 調用一些服務/程序來提取文本
  • Algolia 對提取的內容進行索引,並以某種方式鏈接到原始 PDF

它需要是一個自動化系統,因為客戶端不應該告訴它索引。 它將用 PHP 構建,可能是在 Ubuntu 上運行的 Laravel。

什么軟件/服務可以從 PDF 中提取文本,是否需要將其與 PDF 文件“鏈接”?

我也很高興對可以處理此問題的其他搜索服務提出建議。

幸運的是,從 pdf 中提取文本是一個已經多次討論過的主題。 在命令行上,您可以使用pdftotext (在 Linux 或 Mac 上可用)或在您的代碼中使用一個庫作為Apache Tika (您可以找到一個PHP 包裝器)。

為避免記錄中出現過多干擾,我建議您然后拆分文本並為每個段落創建一個記錄。 然后,您可以使用 Algolia 的distinct功能對結果進行重復數據刪除。

您應該已經在某處擁有指向您的文件的鏈接,只需將它們存儲在您的記錄中,然后,在您的前端,您就可以輕松地使用例如autocomplete.jsinstantsearch.js創建指向它們的鏈接。

對於仍在尋找解決方案的任何人,我整理了一個 GitHub 存儲庫,完全可以做到這一點: https : //github.com/PDFTron/pdftron-document-search

當用戶使用 React + Firebase + Algolia 上傳文檔時,文本提取發生在客戶端。

您可以查看帶您瀏覽示例應用程序的快速視頻: https : //youtu.be/IQATnzHTp7Q

如果您有任何問題,請告訴我。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM