![](/img/trans.png)
[英]Results of rdd.count, count via spark sql are the same, but they are different from count with hive sql
[英]Count on RDD giving different results
我有一个超过7500万行的RDD,当我调用count
函数时,我每次都得到一个不同的数字。 我的理解是计数应该给出确切的数字。
编辑
只是为了了解数据,结构是这样的
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
分区键: Userid
聚类键: Date
ORDER BY DESC
Spark版本:1.2.2
数据来自Cassandra
使用的API是Scala
Spark Cassandra连接器版本1.2.2
我刚从Cassandra读取数据并使用map来获取Userid
和Location
。
我使用读一致性级别Local_One并使用Quorum一致性解决了这个问题。 根本问题是我们的一个节点的突变丢弃计数很高。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.