繁体   English   中英

使用Apache Solr导入或索引Hive / HDFS数据

[英]Import or Index Hive/HDFS data with Apache Solr

我想使用Apache Solr导入或索引存储在HDFS上Parquet文件中的Hive表。 据我所知,第一步是将数据导入或索引到solr ,但我对此一无所知。

这些是我的问题:

  1. 选择以下方式: 数据导入处理程序(DIH) ,HTTP?
  2. Solr 4.9支持索引HDFS,这有何不同?

环境: solr 4.10 + CDH5.11

请帮忙。

请尝试以下:

1.)在配置单元中创建一个基表

hive>创建表solrinput3(用户名字符串)以','结尾的行格式分隔字段;

2.)将样本数据加载到表“ solrinput3”中,如下所示:

hive>插入solrinput3值('sanvi');

3.)添加JAR /opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;

4.)现在,我创建了一个solr-hive集成表,如下所示:

创建外部表dbname.solrtest(标题STRING)

由'com.lucidworks.hadoop.hive.LWStorageHandler'存储

位置“ / lob / test / hive_test”

TBLPROPERTIES('solr.server.url'=' http://XXXX.XXX.XXX:8983/solr ',

'solr.collection'='myproj_collection1',

'solr.query'=' ');

5.)插入覆盖表solrtest select * from solrinput3;

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM