[英]apache solr for translated documents indexing
Apache solr 是否允許這樣做:
除了翻譯成法語的文檔之外,返回給用戶的可能性,還有原文以及原文中的使用上下文?
要索引的文檔是 pdf 文件。
ُ編輯:添加示例
我有原始文件doc_eng.pdf
和翻譯文件doc_fr.pdf
當doc_fr.pdf
在查詢響應中返回時,如果可能的話,我希望能夠獲得doc_eng.pdf
以及上下文(突出顯示)
我的建議
1- map doc_fr.pdf
and doc_eng.pdf
to the same id (if this can be done) and add a boolean field isOriginal =true|false.
2-使用嵌套文檔(但我不明白這將如何與 pdf 文件一起使用)
是的,solr 可以做到這一點。 我建議你使用apache tika mechanism
Solr 可以在索引期間使用 langid UpdateRequestProcessor 將語言和 map 文本識別到特定於語言的字段。
Solr 支持此功能的兩種實現:
[LangDetect language detection]( https://github.com/shuyo/language-detectionhttps://lucene.apache.org/solr/guide/7_2/language-analysis.html )
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.