[英]How to For Each RDD Spark Streaming
我有一個CSV文件query.txt,正在讀取這樣的文件:
JavaRDD<String> distFile = sc.textFile("queries.txt");
querys.txt文件的模式為:Uniq_Id,...,csv中的一些數字值...
我需要每一行-創建一個HashMap,其鍵是querys.txt文件(Uniq_Id)的第一列,值是HashMap的文件中的其他列。
例。 (這不是真實的,也不是一個可行的示例,我只想傳達本質)
HashMap totalMap = new HashMap<Integer, NumericValues>();
for(int i=0;i<distFile.size();i++)
{
String line = distFile[i].getColumns();
for(int y=0;y<line.size();y++)
{
totalMap.put(line.getFirstColumn,line.getRemainingColumns);
}
}
這里NumericValues是我的自定義類,它將具有映射到文件中列的變量。
任何其他建議將有所幫助。
我想這就是您要尋找的東西,但是此示例未解析CSV行本身。
JavaRDD<String> distFile = sc.textFile("queries.txt");
HashMap totalMap = new HashMap<Integer, NumericValues>();
distFile.foreach(new VoidFunction<String>(){
public void call(String line) {
totalMap.put(yourCSVParser(line)); //this is dummy function call
}});
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.