簡體   English   中英

如何在java中配置和使用KStem?

[英]How do I configure and use KStem in java?

我想在我的文檔中干掉這些詞,並將其歸結為KStem。 我在Eclipse中工作並通過將lucene-core jar文件下載到lib文件夾並將其添加到構建路徑來配置Lucene。 我同樣為KStem jar文件做了這個。 但是,我無法找到有關如何在我的Java代碼中使用KStem庫的任何示例或文檔。 我需要為此設置Solr - 不完全確定它是什么。

您只需將KStem配置為由模式中的Lucene / SOLR選取(在具有文檔內容的字段類型中),並僅從代碼中發送索引文檔。 剩下的魔法(包括標記/詞干/停止詞刪除/等)發生在Lucene / SOLR中(取決於您將它們配置為應用於文檔的處理步驟)。 請參閱如何在SOLR中配置KStem: http ://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters/Kstem

簡而言之,Lucene是強大的索引和檢索庫,在SOLR中使用,而SOLR又是完全成熟的搜索服務器。

如果您需要分面搜索,自動完成,分片,復制等功能,請安裝並配置Solr。 如果不是,例如,如果你的目標是擁有一些相對較小的文檔索引,可以快速重建,並且你想在自己的應用程序中組織搜索,那么使用Lucene作為java庫。

如何在一個代碼中使用KStemmer:

private final KStemmer stemmer = new KStemmer();
// char[] term = ...
stemmer.stem(term, len);

您必須自己將文檔內容拆分為術語列表。

這就是在Lucene中使用KStemmer的方法: http//svn.apache.org/repos/asf/lucene/dev/trunk/lucene/analysis/common/src/java/org/apache/lucene/analysis/en/KStemFilter的.java

注意,KStemmer類是Lucene當前主干的一部分(org.apache.lucene.analysis.en): http//svn.apache.org/repos/asf/lucene/dev/trunk/lucene/analysis/common/src /java/org/apache/lucene/analysis/en/KStemmer.java

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM