[英]ResourceWarning about unclosed socket from PySpark toPandas() in unit tests
我在 Spark 上运行的每个单元测试中都会收到 ResourceWarning,如下所示:
/opt/conda/lib/python3.9/socket.py:775: ResourceWarning: unclosed <socket.socket fd=6, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=6, laddr=('127.0.0.1', 37512), raddr=('127.0.0.1', 38975)>
self._sock = None
ResourceWarning: Enable tracemalloc to get the object allocation traceback
我追踪到DataFrame.toPandas()
。 例子:
import unittest
from pyspark.sql import SparkSession
class PySparkTestCase(unittest.TestCase):
def test_convert_to_pandas_df(self):
spark = SparkSession.builder.master("local[2]").getOrCreate()
rawData = spark.range(10)
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)
if __name__ == '__main__':
unittest.main(verbosity=2)
您会在XXX 2
输出行之前看到 2 ResourceWarnings。
但是,如果您在 unittest 之外运行相同的代码,您将不会收到资源警告!
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[2]").getOrCreate()
rawData = spark.range(10)
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)
那么,unittest 是否正在做一些事情来导致toPandas()
中出现此资源警告? 我很感激我可以隐藏资源警告(例如,请参阅此处或此处),但我不想首先收到资源警告!
您可以在运行测试之前将名为PYTHONWARNINGS
的环境变量设置为值ignore
或使用 python 解释器具有的-W ignore
开关。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.