繁体   English   中英

结合使用LD_PRELOAD和Apache Spark(或YARN)

[英]Using LD_PRELOAD with Apache Spark (or YARN)

我们正在Apache Hadoop YARN上运行Spark作业。 我特别需要在这些作业上使用“ LD_PRELOAD技巧”。 (在出现任何恐慌之前,它不用于生产运行;这是自动化作业测试的一部分)。

我知道如何在作业中提交其他文件,并且知道如何在节点上设置环境变量,因此将这些设置添加到spark-defaults.conf几乎可以提供一种解决方案:

spark.files=/home/todd/pwn_connect.so
spark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.so
spark.executorEnv.LD_PRELOAD=pwn_connect.so

但是我在容器日志中得到了这个错误:

ERROR: ld.so: object 'pwn_connect.so' from LD_PRELOAD cannot be preloaded: ignored.

问题似乎是LD_PRELOAD不接受我提供的相对路径。 但是我不知道如何提供绝对路径-我不知道这些文件在节点的本地文件系统上的放置位置。

首先,在YARN上运行时不使用spark.files ,它应该是spark.yarn.dist.files 并注意,如果将--files参数提供给spark-submit ,则它将被覆盖。

对于LD_PRELOAD,有两种解决方案可以使用:

  1. 可以使用相对路径; 它们必须以./

     spark.yarn.dist.files=/home/todd/pwn_connect.so spark.yarn.appMasterEnv.LD_PRELOAD=./pwn_connect.so spark.executorEnv.LD_PRELOAD=./pwn_connect.so 

    (没有./相对路径是在LD_LIBRARY_PATH中而不是当前工作目录中搜索的)。

  2. 如果首选绝对路径,则检查Spark源代码会发现,包括环境变量分配在内的整个命令行都将由shell进行扩展,因此表达式$PWD将扩展为当前工作目录:

     spark.yarn.dist.files=/home/todd/pwn_connect.so spark.yarn.appMasterEnv.LD_PRELOAD=$PWD/pwn_connect.so spark.executorEnv.LD_PRELOAD=$PWD/pwn_connect.so 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM