簡體   English   中英

fts文檔級索引,獲取頁面級結果(帶有dtSearch示例)

[英]fts document-level indexing, obtaining page-level results (with dtSearch example)

這不一定是特定於dtSearch的問題(例如,它更像是fts引擎問題),而是涉及一種索引由多個頁面組成的文檔並獲得頁面級匹配結果的方法。

我已經搜索過,但沒有找到任何內容,因此我的問題是:

我們有一堆從m本書中掃描的n tiff頁。 我們對它們進行OCR處理,對它們進行全文索引並執行搜索。

我們希望搜索結果是書籍級的(例如,搜索結果應包含一本書),但也希望能夠在頁面級獲得找到的項目(以便能夠有效地執行點擊突出顯示,例如術語在第1頁,第2頁和第7頁上找到了SomeTerm

問題來了:

  • 如果我們的索引頁文本,一次一個,並從第1頁包含BookA長期起租1,和Page 2,也BookA,包含術語詞條2,搜索起租1和詞條2不會產生任何結果,這是正常的
  • 如果我們在一個大的文本塊中索引所有頁面的文本,而這些文本都屬於同一本書,那么我們將無法獲得找到的術語所屬的頁面。

dtSearch桌面具有用於PDF索引編制的功能:它可以為單個文檔中的所有頁面的文本編制索引,但是也可以使用%% Page %%符號來告知發生點擊的頁面。

我們正在使用自定義數據源來提供索引器,但是我們無法確定要獲得所需結果所使用的文檔結構。

如果您使用任何其他fts引擎(例如Lucene / Sphinx),您將如何解決上述問題(冒着重復自己的危險):

  1. 您需要索引頁面的內容
  2. 頁面按邏輯分組到文檔中
  3. 您需要按文檔獲取結果
  4. 突出顯示的結果必須包含頁碼

謝謝您的任何建議,喬治

PS:很抱歉,您的短信很長

長期作為dtsearch用戶,我認為我會通過生成和索引分頁的pdf文件回到基礎知識,該文件的每一頁都對應於您的書的ocr文本頁。

這樣,您完全獨立於搜索引擎技術,讓它在眾所周知的pdf格式上發揮最佳性能。

您的索引不會充滿無意義的單頁文檔,在搜索書籍時,單頁文檔的數量將破壞最佳結果排序。

希望這會有所幫助,對不起我的英語不好

蠻力方法將是擁有兩種類型的索引文檔:

  • 頁面級文檔,包含頁面文本,頁碼,書名和一個標記,指示這是頁面級文檔。
  • 書本級文檔,其中包含該書的文本,該書的名稱以及一個標記,指示這是書本級文檔。

您將首先僅搜索書籍級別的文檔以找到匹配的書籍。 然后,您將僅在頁面級文檔中搜索匹配的書,以找到匹配的頁面級文檔。 這可以讓您說“ termX和termY出現在書Z中,termX出現在第2、47和293頁,termY出現在第1、3、5和293頁。”

這種方法的一個缺點是最終會使每個頁面的內容索引兩次。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM