簡體   English   中英

Tika Solr元數據映射忽略文檔標題

[英]Tika Solr Metadata mapping ignore document title

我有以下用於solr的配置文件:

  <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="lowernames">true</str>
      <str name="fmap.content">content</str>
      <str name="fmap.application_name">type</str>
      <str name="fmap.content_type">mime</str>
      <str name="fmap.stream_size">size</str>
      <str name="uprefix">ignored_</str>
      <str name="captureAttr">false</str>
    </lst>
  </requestHandler>

這是我的架構:

   <field name="id" type="string" indexed="true" stored="true" required="true" /> 
   <field name="access_type" type="string" indexed="true" stored="false"/>
   <field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
   <field name="title" type="string" indexed="true" stored="true" multiValued="true" />
   <field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_en_splitting" indexed="true" stored="true"/>
   <field name="created" type="date" indexed="true" stored="true"/>
   <field name="createdby" type="string" indexed="true" stored="true"/>
   <field name="modified" type="date" indexed="true" stored="true"/>
   <field name="modifiedby" type="string" indexed="true" stored="true"/>
   <field name="source" type="string" indexed="true" stored="true" />
   <field name="version" type="string" indexed="true" stored="true" />
   <field name="resourcelink" type="string" indexed="true" stored="true" />
   <field name="downloadlink" type="string" indexed="true" stored="true" />

   <field name="type" type="string" indexed="true" stored="true" />
   <field name="mime" type="string" indexed="true" stored="true" />
   <field name="size" type="string" indexed="true" stored="true" />

我想自己設定title 但是Tika一直設置自己的title (這就是為什么我暫時設置multiValued="true"的原因),我覺得很奇怪,因為我必須手動映射諸如stream_sizecontent_type類的東西。

有什么解決方案可以解決這個問題?

我希望Tika覆蓋我分配的title ,如下所示:

我有3個文檔,對於其中一個,Tika不會提取title ,在這種情況下,我有自己的標題,我設置了傳遞literal.title ,當Tika提取title ,我希望它覆蓋我傳遞的那個titleliteral.title 這可能嗎?

一段時間之前,我正在處理同一問題,但是我也碰到了牆:(我讓Tika取“ title”,並使用literal.other_title_like_field存儲適當的標題。這不是最佳解決方案,但對我有用。

對於那些仍在努力解決此問題的人,我通過添加解決了

<str name="fmap.title">ignored_</str>

在我的ExtractingRequestHandler默認值中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM