簡體   English   中英

Apache Solr:正確使用CompoundWordFilter

[英]Apache Solr: Correct use of CompoundWordFilter

我試圖弄清楚如何為我的應用程序最好地配置Solr。 我正在索引(主要是德語)PDF文檔,並且正在使用dismax查詢來查詢Solr。

如果文檔包含單詞“ Firmenprofil”(德語復合詞->'company profile'),則僅在查詢該單詞時返回該文檔。 但是,只包含“ Profil”的查詢也希望返回此文檔。

我下載了德語詞典文件,並將DictionaryCompoundWordTokenFilter應用於索引分析器和查詢分析器。

問題是,過濾器將查詢分解為非常小的部分(例如,在“ Firmenprofil”的情況下為“ pro”,這將導致返回包含“ Product”之類的單詞的各種文檔...)。

我嘗試從查詢分析器中刪除過濾器,這導致solr根本找不到文檔。 我也嘗試過保留查詢過濾器,但明確將onlyLongestMatch -option設置為true,但這似乎根本沒有任何效果。

好的,好像我的詞典文件太大了(〜20mb)。 我用一個更緊湊的替換它,現在它可以正常工作了...

沒有您的實際配置文件,這有點猜測游戲。

您是否檢查過配置文件是否屬於字典?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM