[英]How to get range of rows using spark in Cassandra
我在卡桑德拉有一張桌子,它的結構是這樣的
CREATE TABLE dmp.Table (
pid text PRIMARY KEY,
day_count map<text, int>,
first_seen map<text, timestamp>,
last_seen map<text, timestamp>,
usage_count map<text, int>
}
現在,我正在嘗試使用spark-cassandra驅動程序查詢它,那么有什么地方可以獲取數據塊。 就像我有100行一樣,我應該能夠得到0-10行,然后是10 -20,依此類推。
CassandraJavaRDD<CassandraRow> cassandraRDD = CassandraJavaUtil.javaFunctions(javaSparkContext).cassandraTable(keySpaceName, tableName);
我問這個問題是因為我的表中沒有列,我可以使用IN子句查詢以獲取行范圍。
您可以添加自動遞增的ID列-請參閱我的DataFrame定義的帶索引的Zip解決方案。 然后,您可以通過新創建的id
列進行查詢:
SELECT ... WHERE id >= 0 and id < 10;
等等。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.