使用 HDFS 存储的 Spark 作业

Question

我在 Google Cloud Dataproc 上运行了一个长期运行的 Spark Structured Streaming Job，它使用 Kafka 作为源和接收器。 我还将我的检查点保存在 Google Cloud Storage 中。

运行一周后，我注意到它正在稳步消耗所有 100 GB 磁盘存储，将文件保存到/hadoop/dfs/data/current/BP-315396706-10.128.0.26-1568586969675/current/finalized/... .

我的理解是我的 Spark 作业不应该对本地磁盘存储有任何依赖。

我在这里完全误解了吗？

我像这样提交了我的工作：

(cd  app/src/packages/ &&  zip -r mypkg.zip mypkg/ ) && mv app/src/packages/mypkg.zip build
gcloud dataproc jobs submit pyspark \
    --cluster cluster-26aa \
    --region us-central1 \
    --properties ^#^spark.jars.packages=org.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.3,org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.3 \
    --py-files build/mypkg.zip \
    --max-failures-per-hour 10 \
    --verbosity info \
    app/src/explode_rmq.py

这些是我工作的相关部分：

资源：

 spark = SparkSession \
        .builder \
        .appName("MyApp") \
        .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    spark.sparkContext.addPyFile('mypkg.zip')

    df = spark \
        .readStream \
        .format("kafka") \
        .options(**config.KAFKA_PARAMS) \
        .option("subscribe", "lsport-rmq-12") \
        .option("startingOffsets", "earliest") \
        .load() \
        .select(f.col('key').cast(t.StringType()), f.col('value').cast(t.StringType()))

下沉：

    sink_kafka_q = sink_df \
        .writeStream \
        .format("kafka") \
        .options(**config.KAFKA_PARAMS) \
        .option("topic", "my_topic") \
        .option("checkpointLocation", "gs://my-bucket-data/checkpoints/my_topic") \
        .start()

Answer 1

如果 memory 不够用，Spark 会将信息持久化到本地磁盘。 您可以像这样禁用磁盘上的持久性：

df.persist(org.apache.spark.storage.StorageLevel.MEMORY_ONLY)

或者你可以像这样尝试序列化信息占用更少的memory

df.persist(org.apache.spark.storage.StorageLevel.MEMORY_ONLY_SER)

读取序列化数据将占用更多 CPU。

每个 dataframe 都有其独特的序列化级别。

更多信息： https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence

Answer 2

你能不能把 SSH 放到主节点上，运行下面的命令来找出谁在消耗 HDFS 空间？

hdfs df -du -h /

我用一个简单的 Spark Pi 作业进行了测试，

在运行作业之前：

$ hdfs dfs -du /
34       /hadoop
0        /tmp
2107947  /user

工作完成后：

$ hdfs dfs -du /user/
0        /user/hbase
0        /user/hdfs
0        /user/hive
0        /user/mapred
0        /user/pig
0        /user/root
2107947  /user/spark
0        /user/yarn
0        /user/zookeeper

$ hdfs dfs -du /user/spark/
2107947  /user/spark/eventlog

似乎它被 Spark 事件日志消耗，请参阅spark.eventLog.dir 。 您可以考虑使用spark.eventLog.compress=true压缩事件日志或使用spark.eventLog.enabled=false禁用它

使用 HDFS 存储的 Spark 作业

问题描述

2 个解决方案

解决方案1
1 2019-10-01 13:17:59

解决方案2
0 2019-10-09 17:24:00

使用 HDFS 存储的 Spark 作业

问题描述

2 个解决方案

解决方案1 1 2019-10-01 13:17:59

解决方案2 0 2019-10-09 17:24:00

解决方案1
1 2019-10-01 13:17:59

解决方案2
0 2019-10-09 17:24:00