繁体   English   中英

从Solr中的多个文本文件导入

[英]Importing from multiple text files in Solr

我有两个文本文件,分别称为A.txt和B.txt。 A.txt和B.txt都有3个字段。 但是语义是不同的。 让我们将这些字段命名如下:

A.txt : f1, f2, f3
B.txt : f1, f2, f4

A.txt和B.txt具有相同的值f1和f2,但具有不同的第三字段。

我想将这些文件导入Solr(我正在使用Solr 4.5)。 但是需要注意的是,来自A.txt和B.txt的相应条目必须合并为一个文档。 因此,例如,如果我们有:

A.txt
1,50,foo
51,100,bar

B.txt
1,50,xkcd
51,100,qc

数据导入发生后,Solr中应该有2个文档:

1,50,foo,xkcd
51,100,bar,qc

如果文档存储在SQL数据库中,那将是一个简单的联接查询。 但是,由于文档以行形式存储在CSV文件中,并且我将LineEntityProcessor与转换器功能一起使用来进行数据导入,因此有没有办法完成此任务?

我想将这些文件导入Solr(我正在使用Solr 4.5)。 但是需要注意的是,来自A.txt和B.txt的相应条目必须合并为一个文档...在数据导入发生之后,Solr中应该有2个文档

这将无法按您的预期工作。 默认情况下,Solr将文档更新视为与事务性删除和插入功能等效的功能。

使用Solr 4, 原子更新功能允许在不影响文档其余字段数据的情况下更新某些字段。 这些工作方式存在局限性,因为它需要有关更新的元数据,并且需要XML或JSON格式。 不过,您确定的文本文件结构将无法使用。

我的建议:避免麻烦,编写一个文件合并脚本,该文件合并文本文件以生成所需的记录,然后再将其存储在Solr中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM