CSV到RDD到Apache Spark中的Cassandra存储

Question

我在csv文件中有一堆数据，我需要通过spark将它们存储到Cassandra中。 我为此使用了Spark到Cassandra连接器。 通常，要存储到Cassandra中，我创建一个Pojo，然后将其序列化为RDD，然后存储：

Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee>  empRdd = SparkContext.parallelize(emp);

最后，我将其写为cassandra：

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

很好，但是我的数据存储在一个csv文件中。 每行代表cassandra数据库中的元组。

我知道我可以读取每一行，拆分列，使用列值创建对象，将其添加到列表中，然后最终序列化整个列表。 我想知道是否有更简单，更直接的方法来做到这一点？

Answer 1

好吧，您可以仅使用SSTableLoader进行BulkLoading并完全避免产生火花。 如果您依靠spark，那么我认为您很不走运。尽管我不确定比逐行阅读和拆分行还要容易得多...