[英]Fastest And Effective Way To Iterate Large DataSet in Java Spark
我通過使用以下方法將spark數據集轉換為哈希映射列表,我的最終目標是構建json對象列表或哈希映射列表我在3.2百萬行上運行此代碼
List<HashMap> finalJsonMap = new ArrayList<HashMap>();
srcData.foreachPartition(new ForeachPartitionFunction<Row>() {
public void call(Iterator<Row> t) throws Exception {
while (t.hasNext()){
Row eachRow = t.next();
HashMap rowMap = new HashMap();
for(int j = 0; j < grpdColNames.size(); j++) {
rowMap.put(grpdColNames.get(j), eachRow.getString(j));
}
finalJsonMap.add(rowMap);
}
}
});
迭代工作正常但我無法將rowMap添加到finalJsonMap中。
這樣做的最佳方法是什么?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.