簡體   English   中英

apache solr 用於翻譯文檔索引

[英]apache solr for translated documents indexing

Apache solr 是否允許這樣做:

除了翻譯成法語的文檔之外,返回給用戶的可能性,還有原文以及原文中的使用上下文?

要索引的文檔是 pdf 文件。

ُ編輯:添加示例

我有原始文件doc_eng.pdf和翻譯文件doc_fr.pdf

doc_fr.pdf在查詢響應中返回時,如果可能的話,我希望能夠獲得doc_eng.pdf以及上下文(突出顯示)

我的建議

1- map doc_fr.pdf and doc_eng.pdf to the same id (if this can be done) and add a boolean field isOriginal =true|false.

2-使用嵌套文檔(但我不明白這將如何與 pdf 文件一起使用)

是的,solr 可以做到這一點。 我建議你使用apache tika mechanism

Solr 可以在索引期間使用 langid UpdateRequestProcessor 將語言和 map 文本識別到特定於語言的字段。

Solr 支持此功能的兩種實現:

Tika 的語言檢測功能

[LangDetect language detection]( https://github.com/shuyo/language-detectionhttps://lucene.apache.org/solr/guide/7_2/language-analysis.html )

參考

譯者

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM