[英]C# Searching PDFs
我正在使用iTextSharp
从pdf中获取内容。 我想允许用户搜索PDF,就像在任何搜索引擎上一样。 搜索应返回最相关的结果。 我已经编写了一个在文档上执行TF-IDF算法以返回相关结果的库。 在此过程中,我觉得自己可能正在重新发明轮子。
该用户应该能够搜索超过50,000个PDF。 所以有很多。 我不想将PDF的全部内容存储在我的数据库中,因为我认为这会非常昂贵。 为了减轻这种情况,我已经编写了库,以便在计算TF-IDF时它将接受频率分布。 这样,当我将PDF添加到系统中时,而不是每次执行搜索时,都可以阅读它。
是否存在已经在执行此类操作的库?
Lucene.NET将满足您的需求。
还有一些商业广告,例如我们的“ SearchUnit”
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.