[英]Search/Index Issue with non english language
我正在嘗試在solr中為PDF文件編制索引,但看起來在將文本轉換為UTF-8字符時已更改。
例如,下面突出顯示的文本:
轉換成:
搜索適用於以后的關鍵字而不是原始單詞。 據我所知,這是在索引之前將PDF文本轉換為UTF-8時發生的。
供參考的以下是索引代碼:
String solrUrlString = "http://localhost:8983/solr/example";
SolrClient solr = new HttpSolrClient(solrUrlString);
ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File(filepage.getabsPath()), "application/pdf");
up.setParam("literal.id", filepage.getId());
up.setParam("uprefix", "attr_");
up.setParam("fmap.content", "attr_content");
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);
我想您要索引的文本內容語言是印度方言之一古吉拉特語。 Solr確實提供了多種語言的語言分析,但是恐怕就印度語言而言,它僅限於印地語。 對於印地語,它提供了以下分析器類類:solr.IndicNormalizationFilterFactory,solr.HindiNormalizationFilterFactory,solr.HindiStemFilterFactory。 我在文檔中看不到古吉拉特語。 您可以在https://cwiki.apache.org/confluence/display/solr/Language+Analysis上查看Solr的語言分析部分。 因此,盡管古吉拉特語是問題中的語言,但我認為分析將是非常模棱兩可,含糊且不兼容的。 讓我知道您是否找到更好的選擇。 希望這可以幫助 :) 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.