簡體 English 中英

使用 Algolia 搜索（提取文本）PDF 文件

[英]Searching (extracting text) PDF files with Algolia

原文 2016-07-28 15:35:57 0 2 php/ search/ algolia

對於擁有大量 PDF 文件的客戶來說，這只是一個推測性的想法。

Algolia 在他們的常見問題解答中說，要搜索 PDF 文件，您首先需要從文件中提取文本。 你會怎么做？

我設想的系統工作方式是：

客戶通過 CMS 上傳 PDF
CMS 調用一些服務/程序來提取文本
Algolia 對提取的內容進行索引，並以某種方式鏈接到原始 PDF

它需要是一個自動化系統，因為客戶端不應該告訴它索引。 它將用 PHP 構建，可能是在 Ubuntu 上運行的 Laravel。

什么軟件/服務可以從 PDF 中提取文本，是否需要將其與 PDF 文件“鏈接”？

我也很高興對可以處理此問題的其他搜索服務提出建議。

2 個解決方案

幸運的是，從 pdf 中提取文本是一個已經多次討論過的主題。 在命令行上，您可以使用pdftotext （在 Linux 或 Mac 上可用）或在您的代碼中使用一個庫作為Apache Tika （您可以找到一個PHP 包裝器）。

為避免記錄中出現過多干擾，我建議您然后拆分文本並為每個段落創建一個記錄。 然后，您可以使用 Algolia 的distinct功能對結果進行重復數據刪除。

您應該已經在某處擁有指向您的文件的鏈接，只需將它們存儲在您的記錄中，然后，在您的前端，您就可以輕松地使用例如autocomplete.js或instantsearch.js創建指向它們的鏈接。

對於仍在尋找解決方案的任何人，我整理了一個 GitHub 存儲庫，完全可以做到這一點： https : //github.com/PDFTron/pdftron-document-search 。

當用戶使用 React + Firebase + Algolia 上傳文檔時，文本提取發生在客戶端。

您可以查看帶您瀏覽示例應用程序的快速視頻： https : //youtu.be/IQATnzHTp7Q 。

如果您有任何問題，請告訴我。

使用php搜索word或pdf文件中的文本短語

[英]searching text phrases in word or pdf files with php

用php搜索pdf文件

[英]Searching pdf files with php

用 PHP 或 JS 讀取 PDF 文件，然后提取內容，最好是通過文本

[英]Reading PDF files in PHP or JS, then extracting the contents, by text ideally

使用php在pdf中搜索文本

[英]Searching text in pdf using php

使用Algolia搜索特定屬性（列）

[英]searching in a specific attribute (column) with Algolia

Zend lucene - 在文本文件中搜索

[英]Zend lucene - searching in text files

從 PDF 中提取文本時出現異常字體

[英]Unusual font when extracting text from PDF

通過PHP搜索和提取外部網頁中的特定文本？

[英]Searching & Extracting Specific text in external webpage via PHP?

從 2 個不同的文本文件中搜索單詞的問題

[英]Issue with searching for a word from 2 differents text files

提取（搜索）字典的子集？

[英]Extracting (searching in) a subset of a dictionary?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用php搜索word或pdf文件中的文本短語用php搜索pdf文件用 PHP 或 JS 讀取 PDF 文件，然后提取內容，最好是通過文本使用php在pdf中搜索文本使用Algolia搜索特定屬性（列） Zend lucene - 在文本文件中搜索從 PDF 中提取文本時出現異常字體通過PHP搜索和提取外部網頁中的特定文本？從 2 個不同的文本文件中搜索單詞的問題提取（搜索）字典的子集？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM