簡體   English   中英

非英語的搜索/索引問題

[英]Search/Index Issue with non english language

我正在嘗試在solr中為PDF文件編制索引,但看起來在將文本轉換為UTF-8字符時已更改。

例如,下面突出顯示的文本:

演示

轉換成:

演示

搜索適用於以后的關鍵字而不是原始單詞。 據我所知,這是在索引之前將PDF文本轉換為UTF-8時發生的。

供參考的以下是索引代碼:

String solrUrlString = "http://localhost:8983/solr/example";
    SolrClient solr = new HttpSolrClient(solrUrlString);

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");

    up.addFile(new File(filepage.getabsPath()), "application/pdf");

    up.setParam("literal.id", filepage.getId());
    up.setParam("uprefix", "attr_");
    up.setParam("fmap.content", "attr_content");

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
    solr.request(up);

我想您要索引的文本內容語言是印度方言之一古吉拉特語。 Solr確實提供了多種語言的語言分析,但是恐怕就印度語言而言,它僅限於印地語。 對於印地語,它提供了以下分析器類類:solr.IndicNormalizationFilterFactory,solr.HindiNormalizationFilterFactory,solr.HindiStemFilterFactory。 我在文檔中看不到古吉拉特語。 您可以在https://cwiki.apache.org/confluence/display/solr/Language+Analysis上查看Solr的語言分析部分。 因此,盡管古吉拉特語是問題中的語言,但我認為分析將是非常模棱兩可,含糊且不兼容的。 讓我知道您是否找到更好的選擇。 希望這可以幫助 :) 。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM