非英語的搜索/索引問題

Question

我正在嘗試在solr中為PDF文件編制索引，但看起來在將文本轉換為UTF-8字符時已更改。

例如，下面突出顯示的文本：

轉換成：

搜索適用於以后的關鍵字而不是原始單詞。 據我所知，這是在索引之前將PDF文本轉換為UTF-8時發生的。

供參考的以下是索引代碼：

String solrUrlString = "http://localhost:8983/solr/example";
    SolrClient solr = new HttpSolrClient(solrUrlString);

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");

    up.addFile(new File(filepage.getabsPath()), "application/pdf");

    up.setParam("literal.id", filepage.getId());
    up.setParam("uprefix", "attr_");
    up.setParam("fmap.content", "attr_content");

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
    solr.request(up);

Answer 1

我想您要索引的文本內容語言是印度方言之一古吉拉特語。 Solr確實提供了多種語言的語言分析，但是恐怕就印度語言而言，它僅限於印地語。 對於印地語，它提供了以下分析器類類：solr.IndicNormalizationFilterFactory，solr.HindiNormalizationFilterFactory，solr.HindiStemFilterFactory。 我在文檔中看不到古吉拉特語。 您可以在https://cwiki.apache.org/confluence/display/solr/Language+Analysis上查看Solr的語言分析部分。 因此，盡管古吉拉特語是問題中的語言，但我認為分析將是非常模棱兩可，含糊且不兼容的。 讓我知道您是否找到更好的選擇。 希望這可以幫助：）。

非英語的搜索/索引問題

問題描述

1 個解決方案

解決方案1
0 2016-08-19 18:16:12

非英語的搜索/索引問題

問題描述

1 個解決方案

解決方案1 0 2016-08-19 18:16:12

解決方案1
0 2016-08-19 18:16:12