非英语的搜索/索引问题

Question

我正在尝试在solr中为PDF文件编制索引，但看起来在将文本转换为UTF-8字符时已更改。

例如，下面突出显示的文本：

转换成：

搜索适用于以后的关键字而不是原始单词。 据我所知，这是在索引之前将PDF文本转换为UTF-8时发生的。

供参考的以下是索引代码：

String solrUrlString = "http://localhost:8983/solr/example";
    SolrClient solr = new HttpSolrClient(solrUrlString);

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");

    up.addFile(new File(filepage.getabsPath()), "application/pdf");

    up.setParam("literal.id", filepage.getId());
    up.setParam("uprefix", "attr_");
    up.setParam("fmap.content", "attr_content");

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
    solr.request(up);

Answer 1

我想您要索引的文本内容语言是印度方言之一古吉拉特语。 Solr确实提供了多种语言的语言分析，但是恐怕就印度语言而言，它仅限于印地语。 对于印地语，它提供了以下分析器类类：solr.IndicNormalizationFilterFactory，solr.HindiNormalizationFilterFactory，solr.HindiStemFilterFactory。 我在文档中看不到古吉拉特语。 您可以在https://cwiki.apache.org/confluence/display/solr/Language+Analysis上查看Solr的语言分析部分。 因此，尽管古吉拉特语是问题中的语言，但我认为分析将是非常模棱两可，含糊且不兼容的。 让我知道您是否找到更好的选择。 希望这可以帮助：）。

非英语的搜索/索引问题

问题描述

1 个解决方案

解决方案1
0 2016-08-19 18:16:12

非英语的搜索/索引问题

问题描述

1 个解决方案

解决方案1 0 2016-08-19 18:16:12

解决方案1
0 2016-08-19 18:16:12