簡體   English   中英

如何配置 Java Spark sparksession 樣本大小

[英]How to config Java Spark sparksession samplesize

我是 Java Spark 的新手。

我目前對 Mongodb ETL 到 hive 有問題,這可能導致該字段具有不同的數據類型。 所以我想增加樣本量,但我在使用 Java 時只看到 scala 的示例,有誰知道我是否設置正確增加樣本量?

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

非常感謝

這是spark.mongodb.input.sampleSize

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("spark.mongodb.input.sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM