繁体   English   中英

火花读/写 function 到 azure 数据湖安装路径的单元测试

[英]Unit test for spark read/write function to azure data lake mount path

我对单元测试很陌生,我需要为火花读/写 function 编写单元测试。

我有一个 function ,例如:

def read_file(path, format, logger):
   df = spark.read.load(path, format = format)
   etc.....
   return df

注意:路径已安装。

现在我需要为此 function / mock adls location编写单元测试。

我检查了下面的链接,该链接使用补丁来模拟 blobServiceClient,但我不确定这是否对我有用,因为它使用的是 python 的开放 function。

尝试使用补丁来模拟 BlobServiceClient 但真正的 class 被调用

甚至可以模拟adls,如果可以的话怎么办?

任何人都可以在这方面帮助我。 任何帮助,将不胜感激。

确保 HDFS 在本地可用。 如果您在 Windows 上运行测试,请确保阅读此自述文件 https://github.com/steveloughran/winutils

此 repo 引用了此其他 repo 以获得较新版本。 这 2 个 github 贡献者是 Hadoop 团队的成员,这些是我用于本地环境的二进制文件。

完成此设置后,您可以传递本地路径。 它们可以是本地 linux 或 windows 路径。

另请阅读本文以正确设置 hadoop 二进制文件的 PATH 项: https://sparkbyexamples.com/spark/spark-hadoop-exception-in-thread-main-java-lang-unsatisfiedlinkioerror-org-apache-hadoop-io-n -nativeiowindows-access0ljava-lang-stringiz/?msclkid=4333eb3bc05d11ecb99904c712581198

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM