簡體 English 中英

Lucene搜索日本字符

[英]Lucene Search for japanese characters

原文 2010-04-15 07:17:17 3 3 c#/ asp.net/ lucene.net

我已經為我的應用程序實現了lucene，除非你介紹了像日語這樣的東西，否則它的效果非常好。

問題是，如果我有日語字符串こんにちは，このバイネイです我用こ搜索是第一個字符比它效果好，而如果我在搜索令牌搜索中使用多個日語字符（こんにち）失敗並且有沒找到文件。

lucene是否支持日文字符？ 讓它運作的設置是什么？

3 個解決方案

lucene的內置分析儀不支持日語。

你需要安裝一些像sen這樣的分析器，它是mecab的 java端口，非常受歡迎的日本分析器，它的速度很快。

有兩種子類型叫做

CJKAnalyzer，支持中文和韓文，並使用bi-gram方法
JapaneseAnalyzer，只支持日語，使用Morphological Analyzer，應該非常快。

我不認為可以使用適用於所有語言的分析器。 問題是，不同的語言有關於單詞邊界和詞干（例如，泰語不會在所有單獨的單詞使用空格）不同的規則。 或者，如果有，我當然不想成為維護者！

您需要做的是將文本塊“標記”為一種語言或另一種語言，並使用正確的分析器來處理該特定語言。 您可以通過進行角色分析來嘗試“自動”檢測語言（即主要使用日語片假名的文本很可能是日語）

您應該使用最近在Lucene 3.6.0中發布的新日本分析儀。 它們基於最近在LUCENE-3305中捐贈給Lucene的優秀Kuromoji形態分析儀。

截至撰寫本文時，文檔有點稀疏，所以這里還有一些鏈接......

如果您使用Solr，這是一個可以在Websolr上運行的示例模式。
我在2012年4月20日herokujp聚會上的演講中進行了全文搜索，重點是分析日語。

（這完全適用於Lucene的Java版本。）

如何在 lucene 搜索中添加特殊字符？ C＃

[英]How to add special characters in lucene search ? c#

如何在lucene.net中使用特殊字符索引和搜索短語查詢？

[英]how to index and search phrase query with special characters in lucene.net?

MigraDoc / PDFsharp的日文字符

[英]Japanese characters with MigraDoc/PDFsharp

將日語字符寫入表格

[英]Write japanese characters into table

日文字符顯示？標志

[英]Japanese characters showing ? sign

如何轉義日語字符？

[英]How to escape Japanese characters?

如何對日文字符進行編碼

[英]How to encode Japanese characters

日語字符編碼問題

[英]Japanese characters Encoding Issues

比較C＃中的日文字符

[英]Comparing Japanese Characters in C#

在WPF RichTextBox中設置日語字符

[英]Setting Japanese characters in WPF RichTextBox

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在 lucene 搜索中添加特殊字符？ C＃如何在lucene.net中使用特殊字符索引和搜索短語查詢？ MigraDoc / PDFsharp的日文字符將日語字符寫入表格日文字符顯示？標志如何轉義日語字符？如何對日文字符進行編碼日語字符編碼問題比較C＃中的日文字符在WPF RichTextBox中設置日語字符

相關標簽

Lucene搜索日本字符

問題描述

3 個解決方案

解決方案1
4 2010-04-15 07:23:07

解決方案2
3 已采納 2010-04-15 07:43:06

解決方案3
0 2012-04-30 18:08:50

Lucene搜索日本字符

問題描述

3 個解決方案

解決方案1 4 2010-04-15 07:23:07

解決方案2 3 已采納 2010-04-15 07:43:06

解決方案3 0 2012-04-30 18:08:50

解決方案1
4 2010-04-15 07:23:07

解決方案2
3 已采納 2010-04-15 07:43:06

解決方案3
0 2012-04-30 18:08:50