如何使用IBM Watson Explorer提取PDF URL的关键字属性？

Question

我想从PDF链接中提取PDF的关键字值。 我正在爬一个包含一些PDF链接的页面。 我想建立一个虚拟文档，在其中必须将那些PDF放入队列。 我不想抓取这些PDF的内容，但是我只想从这些PDF中提取关键字。 当我打开带有检查源的PDF链接时，它确实有一个关键字字段。 但是它没有关键字的任何值。 看起来像这样：

 <div class="row">
 <span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p>
 </div>

有什么方法可以从PDF中提取关键字吗？ 我看到那些PDF具有关键字，当我下载这些PDF时，打开PDF属性和关键字具有一定的价值。

参考： https : //www.ibm.com/support/knowledgecenter/SS8NLW_10.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.tut.virt.doc/t_cc-build-virt-docs.html

Answer 1

我不知道开箱即用的方法，但是您可以尝试实现搜寻器插件或自己的搜寻器。 有一些钩子可以添加提取元数据并将其添加到索引，例如，在搜寻器插件中，您可以执行以下操作

@Override
    public CrawledData updateDocument(CrawledData crawledData) throws CrawlerPluginException {

        List<FieldMetadata> metadataList = crawledData.getMetadataList();
        String MyPDFProperty= getFromOriginalContent(crawledData.getOriginalContents());
//getFromOriginalContent method you need to implement for your PDF document

          if (metadataList == null) {
             metadataList = new ArrayList<FieldMetadata>();
          }                       

FieldMetadata pdfFieldMetaData = new FieldMetadata("pdfextractedpropertyr", MyPDFProperty);
                metadataList.add(pdfFieldMetaData);
                crawledData.setMetadataList(metadataList);

            } catch (ClientServicesException e) {

                logger.error(e.getMessage());
                throw new CrawlerPluginException(e);
            }
          }
          return crawledData;
    }

如何使用IBM Watson Explorer提取PDF URL的关键字属性？

问题描述

1 个解决方案

解决方案1
0 2017-03-12 11:38:27

如何使用IBM Watson Explorer提取PDF URL的关键字属性？

问题描述

1 个解决方案

解决方案1 0 2017-03-12 11:38:27

解决方案1
0 2017-03-12 11:38:27