簡體   English   中英

C#搜索PDF

[英]C# Searching PDFs

我正在使用iTextSharp從pdf中獲取內容。 我想允許用戶搜索PDF,就像在任何搜索引擎上一樣。 搜索應返回最相關的結果。 我已經編寫了一個在文檔上執行TF-IDF算法以返回相關結果的庫。 在此過程中,我覺得自己可能正在重新發明輪子。

該用戶應該能夠搜索超過50,000個PDF。 所以有很多。 我不想將PDF的全部內容存儲在我的數據庫中,因為我認為這會非常昂貴。 為了減輕這種情況,我已經編寫了庫,以便在計算TF-IDF時它將接受頻率分布。 這樣,當我將PDF添加到系統中時,而不是每次執行搜索時,都可以閱讀它。

是否存在已經在執行此類操作的庫?

Lucene.NET將滿足您的需求。

還有一些商業廣告,例如我們的“ SearchUnit”

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM