繁体   English   中英

使用lucene在pdf中搜索关键字并提取相应区域

searching a keyword in a pdf using and extracting the corresponding area, using lucene

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

这是尝试在pdf中搜索关键字的代码:

          File pdfFile = new File(pdfString);
              IndexItem pdfIndexItem = index(pdfFile);
              Indexer indexer = new Indexer(INDEX_DIR);
              indexer.index(pdfIndexItem);

               indexer.close();

             Searcher searcher = new Searcher(INDEX_DIR);
             int result = searcher.findByContent("Fusion", DEFAULT_RESULT_SIZE);
             if(result==1)
          System.out.println("The document contains the search keyword");
          else
          System.out.println("The document does not contain the search keyword");
          searcher.close()`

这样可以很好地工作,但是它只说明文档中是否包含关键字。 我希望的是,如果在找到关键字之后(最有可能是多次),它将提取关键字在其中的区域。 按面积,我的意思是包含关键字的句子 是否需要将pdf文本存储在文件中,然后进行常规的字符串标记化,还是在不存储pdf文本版本的情况下完成?

问题暂未有回复.您可以查看右边的相关问题.
1 搜索PDF中的关键字并提供页码

我目前正在使用Adobe Reader x1,并且在excel中创建了一个宏,该宏可搜索PDF中的关键字,并在找到关键字的位置提供页码。 我找到了一个搜索PDF的宏,但是该宏仅适用于OCR。 是否可以使用Adobe Reader XI创建同时搜索PDF中的关键字的宏。 ...

2 按关键字搜索并提取分隔符内的短语

我有一个列数据如下: 我想搜索和提取框架内的特定关键字,并仅提取分隔符中的数据 具体关键词是 预期的输出是 如果未找到匹配,则在输出列中用 NA 填充。 同一列中可以多次出现 id,但我只想考虑第一次出现。 我在这里尝试过,但没有有效地工作。 我们可以用 bash 脚本来做到这一点吗 ...

3 使用关键字从pdf提取页面

好的,所以我很确定我不能用excel vb甚至免费做到这一点。 我正在编写这些宏以供工作,其中之一需要能够根据关键字选择pdf。 然后进入pdf,使用一组不同的关键字搜索页面标题或页面本身上的文本。 当它找到与第二组关键字之一匹配的页面时,它将按原样将整个页面提取为单个页面pdf。 ...

4 在区域主体中搜索关键字

我正在尝试在Piranha CMS中实现简单的搜索功能。 这使用一个单独的控制器和一个输入字符串“ q”,这是形式GET-call的结果。 该字符串在每个空格处分成一个称为关键字的字符串列表。 我已经实现了一个简单的搜索,可以根据标题和帖子的摘录和正文成功检索页面和帖子。 但是,由于 ...

5 使用iTextSharp 7在PDF中搜索关键字

我正在尝试使用C#和iTextSharp在PDF文件中搜索关键字。 所以我遇到了这段代码: 但是它说PdfReader不包含NumberOfPages的定义。 我还有其他方法可以获取PDF文件中的页数吗? ...

6 使用Lucene提取关键字时出错

我对文本提取概念完全陌生。 当我搜索一个示例时,我发现一个使用Lucene实现的示例。 我只是试图在Eclipse中运行它,但它给出了一个错误。 这是我得到的错误:(违反TokenStream合约:reset()/ close()调用丢失,reset()多次调用,或者子类未调用super. ...

7 在Lucene中嵌套搜索而不重复关键字

我想使用以下逻辑在Lucene(实际上是Lucene.NET,但是我可以根据需要从Java转换)中进行搜索: 搜索字符串是:ABC 在索引中的一个字段中搜索与A,B或C匹配的任何内容。(查询: (field1:A field1:B field1:C) ) 对于在步骤2中 ...

8 如何在pdf中搜索关键短语并提取该段落

我有数以千计的年度报告(PDF 格式)。 另外,我有一个关键短语的清单,例如“公司被罚款”、“排放标准更差”、“因违反环境而被罚款”等。 我的目标是在这些 PDF 文件中搜索关键短语并提取段落。 我可以通过使用像“罚款”、“更糟”这样的单个词关键字来做到这一点,但不能用单个短语中的多个词来做到这 ...

9 搜索多个关键字和相应的索引

我有这样的字符串: 无论我在哪里找到“ gbp”,“ euro”或“ usd”中的任何一个,我都想对上面的字符串进行子字符串化或切片。 不起作用: 可以做: 但是然后我需要检查它们中的哪个大于-1,然后使用该变量将字符串切成薄片,这将是太多的代码。 另外,在我 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM