如何配置 Java Spark sparksession 樣本大小

Question

我是 Java Spark 的新手。

我目前對 Mongodb ETL 到 hive 有問題，這可能導致該字段具有不同的數據類型。 所以我想增加樣本量，但我在使用 Java 時只看到 scala 的示例，有誰知道我是否設置正確增加樣本量？

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

非常感謝

Answer 1

這是spark.mongodb.input.sampleSize

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("spark.mongodb.input.sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

如何配置 Java Spark sparksession 樣本大小

問題描述

1 個解決方案

解決方案1
2 已采納 2020-04-03 05:05:06

如何配置 Java Spark sparksession 樣本大小

問題描述

1 個解決方案

解決方案1 2 已采納 2020-04-03 05:05:06

解決方案1
2 已采納 2020-04-03 05:05:06