[英]Tika Solr Metadata mapping ignore document title
我有以下用於solr的配置文件:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="lowernames">true</str>
<str name="fmap.content">content</str>
<str name="fmap.application_name">type</str>
<str name="fmap.content_type">mime</str>
<str name="fmap.stream_size">size</str>
<str name="uprefix">ignored_</str>
<str name="captureAttr">false</str>
</lst>
</requestHandler>
這是我的架構:
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="access_type" type="string" indexed="true" stored="false"/>
<field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
<field name="title" type="string" indexed="true" stored="true" multiValued="true" />
<field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
<field name="content" type="text_en_splitting" indexed="true" stored="true"/>
<field name="created" type="date" indexed="true" stored="true"/>
<field name="createdby" type="string" indexed="true" stored="true"/>
<field name="modified" type="date" indexed="true" stored="true"/>
<field name="modifiedby" type="string" indexed="true" stored="true"/>
<field name="source" type="string" indexed="true" stored="true" />
<field name="version" type="string" indexed="true" stored="true" />
<field name="resourcelink" type="string" indexed="true" stored="true" />
<field name="downloadlink" type="string" indexed="true" stored="true" />
<field name="type" type="string" indexed="true" stored="true" />
<field name="mime" type="string" indexed="true" stored="true" />
<field name="size" type="string" indexed="true" stored="true" />
我想自己設定title
。 但是Tika一直設置自己的title
(這就是為什么我暫時設置multiValued="true"
的原因),我覺得很奇怪,因為我必須手動映射諸如stream_size
和content_type
類的東西。
有什么解決方案可以解決這個問題?
我希望Tika覆蓋我分配的title
,如下所示:
我有3個文檔,對於其中一個,Tika不會提取title
,在這種情況下,我有自己的標題,我設置了傳遞literal.title
,當Tika提取title
,我希望它覆蓋我傳遞的那個title
在literal.title
。 這可能嗎?
一段時間之前,我正在處理同一問題,但是我也碰到了牆:(我讓Tika取“ title”,並使用literal.other_title_like_field存儲適當的標題。這不是最佳解決方案,但對我有用。
對於那些仍在努力解決此問題的人,我通過添加解決了
<str name="fmap.title">ignored_</str>
在我的ExtractingRequestHandler默認值中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.