繁体   English   中英

CSV到RDD到Apache Spark中的Cassandra存储

[英]CSV to RDD to Cassandra store in Apache Spark

我在csv文件中有一堆数据,我需要通过spark将它们存储到Cassandra中。 我为此使用了Spark到Cassandra连接器。 通常,要存储到Cassandra中,我创建一个Pojo,然后将其序列化为RDD,然后存储:

Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee>  empRdd = SparkContext.parallelize(emp);

最后,我将其写为cassandra:

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

很好,但是我的数据存储在一个csv文件中。 每行代表cassandra数据库中的元组。

我知道我可以读取每一行,拆分列,使用列值创建对象,将其添加到列表中,然后最终序列化整个列表。 我想知道是否有更简单,更直接的方法来做到这一点?

好吧,您可以仅使用SSTableLoader进行BulkLoading并完全避免产生火花。 如果您依靠spark,那么我认为您很不走运。尽管我不确定比逐行阅读和拆分行还要容易得多...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM