[英]CSV to RDD to Cassandra store in Apache Spark
我在csv文件中有一堆數據,我需要通過spark將它們存儲到Cassandra中。 我為此使用了Spark到Cassandra連接器。 通常,要存儲到Cassandra中,我創建一個Pojo,然后將其序列化為RDD,然后存儲:
Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp);
最后,我將其寫為cassandra:
CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");
很好,但是我的數據存儲在一個csv
文件中。 每行代表cassandra數據庫中的元組。
我知道我可以讀取每一行,拆分列,使用列值創建對象,將其添加到列表中,然后最終序列化整個列表。 我想知道是否有更簡單,更直接的方法來做到這一點?
好吧,您可以僅使用SSTableLoader進行BulkLoading並完全避免產生火花。 如果您依靠spark,那么我認為您很不走運。盡管我不確定比逐行閱讀和拆分行還要容易得多...
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.