簡體   English   中英

CSV到RDD到Apache Spark中的Cassandra存儲

[英]CSV to RDD to Cassandra store in Apache Spark

我在csv文件中有一堆數據,我需要通過spark將它們存儲到Cassandra中。 我為此使用了Spark到Cassandra連接器。 通常,要存儲到Cassandra中,我創建一個Pojo,然后將其序列化為RDD,然后存儲:

Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee>  empRdd = SparkContext.parallelize(emp);

最后,我將其寫為cassandra:

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

很好,但是我的數據存儲在一個csv文件中。 每行代表cassandra數據庫中的元組。

我知道我可以讀取每一行,拆分列,使用列值創建對象,將其添加到列表中,然后最終序列化整個列表。 我想知道是否有更簡單,更直接的方法來做到這一點?

好吧,您可以僅使用SSTableLoader進行BulkLoading並完全避免產生火花。 如果您依靠spark,那么我認為您很不走運。盡管我不確定比逐行閱讀和拆分行還要容易得多...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM