如何針對每個RDD Spark流

Question

我有一個CSV文件query.txt，正在讀取這樣的文件：

JavaRDD<String> distFile = sc.textFile("queries.txt");

querys.txt文件的模式為：Uniq_Id，...，csv中的一些數字值...

我需要每一行-創建一個HashMap，其鍵是querys.txt文件（Uniq_Id）的第一列，值是HashMap的文件中的其他列。

例。 （這不是真實的，也不是一個可行的示例，我只想傳達本質）

HashMap totalMap = new HashMap<Integer, NumericValues>();

for(int i=0;i<distFile.size();i++)
{
   String line = distFile[i].getColumns();
   for(int y=0;y<line.size();y++)
   {
      totalMap.put(line.getFirstColumn,line.getRemainingColumns);
   }
}

這里NumericValues是我的自定義類，它將具有映射到文件中列的變量。

任何其他建議將有所幫助。

Answer 1

我想這就是您要尋找的東西，但是此示例未解析CSV行本身。

  JavaRDD<String> distFile = sc.textFile("queries.txt");
  HashMap totalMap = new HashMap<Integer, NumericValues>();
  distFile.foreach(new VoidFunction<String>(){ 
          public void call(String line) {
              totalMap.put(yourCSVParser(line)); //this is dummy function call 
    }});

如何針對每個RDD Spark流

問題描述

1 個解決方案

解決方案1
4 2015-08-25 08:55:44

如何針對每個RDD Spark流

問題描述

1 個解決方案

解決方案1 4 2015-08-25 08:55:44

解決方案1
4 2015-08-25 08:55:44