繁体   English   中英

关于单元测试中 PySpark toPandas() 未关闭套接字的 ResourceWarning

[英]ResourceWarning about unclosed socket from PySpark toPandas() in unit tests

我在 Spark 上运行的每个单元测试中都会收到 ResourceWarning,如下所示:

    /opt/conda/lib/python3.9/socket.py:775: ResourceWarning: unclosed <socket.socket fd=6, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=6, laddr=('127.0.0.1', 37512), raddr=('127.0.0.1', 38975)>
  self._sock = None
    ResourceWarning: Enable tracemalloc to get the object allocation traceback

我追踪到DataFrame.toPandas() 例子:

import unittest    
from pyspark.sql import SparkSession

class PySparkTestCase(unittest.TestCase):

    def test_convert_to_pandas_df(self):
        spark = SparkSession.builder.master("local[2]").getOrCreate()
        rawData = spark.range(10)
        print("XXX 1")
        pdfData = rawData.toPandas()
        print("XXX 2")
        print(pdfData)

if __name__ == '__main__':
    unittest.main(verbosity=2)

您会在XXX 2输出行之前看到 2 ResourceWarnings。

但是,如果您在 unittest 之外运行相同的代码,您将不会收到资源警告!

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[2]").getOrCreate()    
rawData = spark.range(10)    
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)

那么,unittest 是否正在做一些事情来导致toPandas()中出现此资源警告? 我很感激我可以隐藏资源警告(例如,请参阅此处此处),但我不想首先收到资源警告!

您可以在运行测试之前将名为PYTHONWARNINGS的环境变量设置为值ignore或使用 python 解释器具有的-W ignore开关。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM