繁体   English   中英

如何使用IBM Watson Explorer提取PDF URL的关键字属性?

[英]How to extract the keyword properties of a PDF URL using IBM Watson Explorer?

我想从PDF链接中提取PDF的关键字值。 我正在爬一个包含一些PDF链接的页面。 我想建立一个虚拟文档,在其中必须将那些PDF放入队列。 我不想抓取这些PDF的内容,但是我只想从这些PDF中提取关键字。 当我打开带有检查源的PDF链接时,它确实有一个关键字字段。 但是它没有关键字的任何值。 看起来像这样:

 <div class="row">
 <span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p>
 </div>

有什么方法可以从PDF中提取关键字吗? 我看到那些PDF具有关键字,当我下载这些PDF时,打开PDF属性和关键字具有一定的价值。

参考: https : //www.ibm.com/support/knowledgecenter/SS8NLW_10.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.tut.virt.doc/t_cc-build-virt-docs.html

我不知道开箱即用的方法,但是您可以尝试实现搜寻器插件或自己的​​搜寻器。 有一些钩子可以添加提取元数据并将其添加到索引,例如,在搜寻器插件中,您可以执行以下操作

@Override
    public CrawledData updateDocument(CrawledData crawledData) throws CrawlerPluginException {

        List<FieldMetadata> metadataList = crawledData.getMetadataList();
        String MyPDFProperty= getFromOriginalContent(crawledData.getOriginalContents());
//getFromOriginalContent method you need to implement for your PDF document

          if (metadataList == null) {
             metadataList = new ArrayList<FieldMetadata>();
          }                       

FieldMetadata pdfFieldMetaData = new FieldMetadata("pdfextractedpropertyr", MyPDFProperty);
                metadataList.add(pdfFieldMetaData);
                crawledData.setMetadataList(metadataList);

            } catch (ClientServicesException e) {

                logger.error(e.getMessage());
                throw new CrawlerPluginException(e);
            }
          }
          return crawledData;
    }

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM