簡體   English   中英

Apache Solr,SolrJ與用於解析XML的數據導入處理程序

[英]Apache Solr, SolrJ vs Data Import Handler for parsing XML

我希望使用Solr從XML文件解析的信息中運行搜索。 這些XML文件不是Solr的文檔格式,因此我必須解析它們並以這種方式獲取所需的字段。

我熟悉Java編程,並且想知道SolrJ是否比使用數據導入處理程序更簡單的方法。 我正在考慮遍歷我擁有的每個XML文件,並從每個文件解析我需要的字段。 一種方法比另一種方法有什么缺點嗎? 我可以想象,由於我熟悉Java,因此以這種方式解析XML可能會更容易?

我可能需要多個條件和正則表達式。 如果有的話,這是一種從相對非結構化XML中獲取字段的可靠方法。

SolrJ如何使用該界面? 也就是說,如果我使用SolrJ進行索引,我是否仍可以通過接口進行查詢?

DIH專為原型設計,盡管有些人確實將其用於生產。 您可以從它開始,但是如果遇到限制,可以隨時跳轉到SolrJ或其他方法。 而且,如果您有非常復雜的映射,那么從SolrJ開始可能會更好。

您還可以對傳入的XML文檔應用XSLT轉換,以將其映射為Solr格式。

就像其他地方所說的那樣,搜索與索引是一個獨立的問題。

將內容編入Solr的方式與查詢方式正交。 您可以按任何方式建立索引,只要它在索引中生成正確的文檔即可。

現在,關於索引編制,如果DIH能夠在不作大量調整的情況下滿足您的需求,那就去吧。 但是,如果您需要對數據進行大量調整,最后,如果僅使用Solr編寫一些Java,則可能會更快地完成。 使用Solr,您將擁有所有的靈活性,而使用DIH,您將受到更大的限制(想想80/20規則)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM