簡體   English   中英

關於單元測試中 PySpark toPandas() 未關閉套接字的 ResourceWarning

[英]ResourceWarning about unclosed socket from PySpark toPandas() in unit tests

我在 Spark 上運行的每個單元測試中都會收到 ResourceWarning,如下所示:

    /opt/conda/lib/python3.9/socket.py:775: ResourceWarning: unclosed <socket.socket fd=6, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=6, laddr=('127.0.0.1', 37512), raddr=('127.0.0.1', 38975)>
  self._sock = None
    ResourceWarning: Enable tracemalloc to get the object allocation traceback

我追蹤到DataFrame.toPandas() 例子:

import unittest    
from pyspark.sql import SparkSession

class PySparkTestCase(unittest.TestCase):

    def test_convert_to_pandas_df(self):
        spark = SparkSession.builder.master("local[2]").getOrCreate()
        rawData = spark.range(10)
        print("XXX 1")
        pdfData = rawData.toPandas()
        print("XXX 2")
        print(pdfData)

if __name__ == '__main__':
    unittest.main(verbosity=2)

您會在XXX 2輸出行之前看到 2 ResourceWarnings。

但是,如果您在 unittest 之外運行相同的代碼,您將不會收到資源警告!

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[2]").getOrCreate()    
rawData = spark.range(10)    
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)

那么,unittest 是否正在做一些事情來導致toPandas()中出現此資源警告? 我很感激我可以隱藏資源警告(例如,請參閱此處此處),但我不想首先收到資源警告!

您可以在運行測試之前將名為PYTHONWARNINGS的環境變量設置為值ignore或使用 python 解釋器具有的-W ignore開關。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM