繁体   English   中英

HBase Scan - RowKey过滤器

[英]HBase Scan - RowKey Filters

那么,让我们看看我是否可以简要解释一下我的问题。

试想一下,我们得到了有迪斯科每次访问的信息的HBase的表:每迪斯科注册其名称访问者的名字 ,他参观了它的一天 是的,这是一个愚蠢的例子,我知道 ...... )。

因此,例如,这些将是表的一些值:

..
ministryOfSoundJamesOliver01022017
ministryOfSoundJamesOliver02022017
ministryOfSoundJamesOliver03022017
ministryOfSoundOliviaNewton04042017
ministryOfSoundOliviaNewton06042017
...
pachaibizaJohnMcKiness06042017
pachaibizaJohnMcKiness04042017
pachaibizaWilliamForrester04042017
..

RowKey具有以下结构:

discoName

PERSONNAME

dayOfTheYear

(该表有一些其他的列/限定符,但我不介意它们的问题)。


问题是:想象一个男孩只是喜欢去声音部。 他只是喜欢它,他把所有的钱花在迪斯科舞厅和毒品上( 但这不是重点 )。

我的目标是输出所有参加过声音部的人 在我的扫描中,这个家伙一直出现在结果中,所以我必须丢弃很多条目来搜索下一个访客。 FE:

..
ministryOfSoundJohnnyYonkie01022017
ministryOfSoundJohnnyYonkie02022017
ministryOfSoundJohnnyYonkie03022017
ministryOfSoundJohnnyYonkie04022017
ministryOfSoundJohnnyYonkie05022017
ministryOfSoundAnotherDude02022017
...

为了注册AnotherDude ,我必须丢弃Johnny的 4个条目。

最后,问题是:


有没有办法告诉HBase必须自动丢弃从字节(x)到字节(x + y)的重复条目[ x是来自discoName的字节数和来自discoName y字节personName ]?


非常感谢提前!!

首先要做的事情:如果你只有客户端访问权限,我无法帮助你:(

如果您有其他访问权限,那么您可以查看以下命题,但默认答案是: 如果这是您的访问模式,请为其优化架构。

如果您需要以某种方式访问​​数据,请确保首先以这种方式编写数据。 如果必须执行迁移,请使用map-reduce API。

我可能只是添加一个表,只写一行ministryOfSound和每个访问者的列。 (一般来说,你提出的模式听起来不太适合HBase - 因为你有一堆单调增加rowkeys的写入,如果对重复结果进行后处理实际上是一个性能问题)

另一方面,如果这是一个临时查询,那么您可能希望立即使用mapreduce-API - 可能使用Apache Spark-interconnect并对数据执行“不同”调用。

使用扫描进行分析查询不是我的方法。

如果你必须使用扫描,那么我建议你实现一个CoProcessor。 这些可以使用state扩充Filter,并且可以在Region Server端投影PrefixFilter'd Scan的结果。 如果您是CoProcessors的新手,请参阅以下内容: HBase:The Definitive Guide 这要求您可以将jar部署到RegionServer类路径中。

但同样,如果你通过在那里做一个明显的过滤来炸毁你的客户,你可能也会因为插件上的热点而炸毁你的区域。

作为最后的替代方案:您可能希望查看Apache Phoenix,看看是否可以将您的rowkey强制转换为模式,从中可以对rowkey的前两部分执行select distinct。 这显然要求您在rowkey中具有分隔符,或者至少具有固定长度。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM