如何在Lucene中用連字符索引單詞？

Question

我有一個StandardAnalyzer工作，它使用填充HashMap的TermVectorMapper從單個文檔中檢索單詞和頻率。

但是，如果我在文檔中使用以下文本作為字段，即

addDoc(w, "lucene Lawton-Browne Lucene");

HashMap中返回的單詞頻率為：

布朗1 lucene 2 lawton 1

問題是“勞頓”和“布朗”這兩個詞。 如果這是一個真正的“雙管”名稱，Lucene可以將其識別為'Lawton-Browne'，其名稱實際上是一個單詞嗎？

我嘗試過組合：

addDoc(w, "lucene \”Lawton-Browne\” Lucene");

單引號但沒有成功。

謝謝

摩根先生。

Answer 1

如果您仍希望能夠使用停用詞列表，我建議您嘗試使用PatternAnalyzer。 它允許這樣的列表並具有預填充的空白模式。

或者你包裝空白分析器並在tokenStream（String fieldName，Reader reader）中執行類似這樣的操作，你可以這樣做：

public TokenStream tokenStream(String fieldName, Reader reader) {
  TokenStream stream = myWhitespaceAnalyzer.tokenStream(fieldName, Reader);
  stream = new StopFilter(stream, stopWords);
  return stream;
}

Answer 2

逃離人物

請參閱Lucene文檔

http://lucene.apache.org/java/2_4_0/queryparsersyntax.html#Escaping%20Special%20Characters

如何在Lucene中用連字符索引單詞？

問題描述

2 個解決方案

解決方案1
1 2011-04-20 19:12:09

解決方案2
0 2010-10-24 20:16:13

如何在Lucene中用連字符索引單詞？

問題描述

2 個解決方案

解決方案1 1 2011-04-20 19:12:09

解決方案2 0 2010-10-24 20:16:13

解決方案1
1 2011-04-20 19:12:09

解決方案2
0 2010-10-24 20:16:13