Spark失敗了java.lang.OutOfMemoryError：超出了GC開銷限制？

Question

這是我的java代碼，我使用Apache spark sql從Hive查詢數據。

JavaSparkContext ctx = new JavaSparkContext(new SparkConf().setAppName("LoadData").setMaster("MasterUrl"));
HiveContext sqlContext = new HiveContext(ctx.sc());
List<Row> result = sqlContext.sql("Select * from Tablename").collectAsList();

當我運行此代碼時，它會拋出java.lang.OutOfMemoryError：超出GC開銷限制。 如何解決此問題或如何增加Spark配置中的內存。

Answer 1

如果您使用spark-shell運行它，那么您可以使用driver-memory來突破內存限制：

spark-shell --driver-memory Xg [other options]

如果執行程序有問題，那么您可以使用--executor-memory XG調整其內存限制

您可以在指南中找到有關如何准確設置它們的更多信息：提交執行程序內存，配置驅動程序內存。

@Edit：因為你從Netbeans運行它，你應該能夠將它們作為JVM參數-Dspark.driver.memory=XG和-Dspark.executor.memory=XG 。 我認為它是在Run下的Project Properties 。

Answer 2

你找到了解決問題的方法嗎？ 如果你有，請分享：D

這里是我的想法：rdd和javaRDD都有一個方法toLocalIterator() ，spark文件說的那個

迭代器將消耗與此RDD中最大分區一樣多的內存。

這意味着如果將rdd划分為多個分區，迭代器將比List消耗更少的內存，您可以嘗試這樣：

Iterator<Row> iter = sqlContext.sql("Select * from Tablename").javaRDD().toLocalIterator();
while (iter.hasNext()){
    Row row = iter.next();
    //your code here
}

ps：這只是一個想法，我還沒有測試過

Spark失敗了java.lang.OutOfMemoryError：超出了GC開銷限制？

問題描述

2 個解決方案

解決方案1
0 2015-08-07 05:49:32

解決方案2
0 2015-08-25 04:34:31

Spark失敗了java.lang.OutOfMemoryError：超出了GC開銷限制？

問題描述

2 個解決方案

解決方案1 0 2015-08-07 05:49:32

解決方案2 0 2015-08-25 04:34:31

解決方案1
0 2015-08-07 05:49:32

解決方案2
0 2015-08-25 04:34:31