CSV到RDD到Apache Spark中的Cassandra存儲

Question

我在csv文件中有一堆數據，我需要通過spark將它們存儲到Cassandra中。 我為此使用了Spark到Cassandra連接器。 通常，要存儲到Cassandra中，我創建一個Pojo，然后將其序列化為RDD，然后存儲：

Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee>  empRdd = SparkContext.parallelize(emp);

最后，我將其寫為cassandra：

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

很好，但是我的數據存儲在一個csv文件中。 每行代表cassandra數據庫中的元組。

我知道我可以讀取每一行，拆分列，使用列值創建對象，將其添加到列表中，然后最終序列化整個列表。 我想知道是否有更簡單，更直接的方法來做到這一點？

Answer 1

好吧，您可以僅使用SSTableLoader進行BulkLoading並完全避免產生火花。 如果您依靠spark，那么我認為您很不走運。盡管我不確定比逐行閱讀和拆分行還要容易得多...