[英]ResourceWarning about unclosed socket from PySpark toPandas() in unit tests
我在 Spark 上運行的每個單元測試中都會收到 ResourceWarning,如下所示:
/opt/conda/lib/python3.9/socket.py:775: ResourceWarning: unclosed <socket.socket fd=6, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=6, laddr=('127.0.0.1', 37512), raddr=('127.0.0.1', 38975)>
self._sock = None
ResourceWarning: Enable tracemalloc to get the object allocation traceback
我追蹤到DataFrame.toPandas()
。 例子:
import unittest
from pyspark.sql import SparkSession
class PySparkTestCase(unittest.TestCase):
def test_convert_to_pandas_df(self):
spark = SparkSession.builder.master("local[2]").getOrCreate()
rawData = spark.range(10)
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)
if __name__ == '__main__':
unittest.main(verbosity=2)
您會在XXX 2
輸出行之前看到 2 ResourceWarnings。
但是,如果您在 unittest 之外運行相同的代碼,您將不會收到資源警告!
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[2]").getOrCreate()
rawData = spark.range(10)
print("XXX 1")
pdfData = rawData.toPandas()
print("XXX 2")
print(pdfData)
那么,unittest 是否正在做一些事情來導致toPandas()
中出現此資源警告? 我很感激我可以隱藏資源警告(例如,請參閱此處或此處),但我不想首先收到資源警告!
您可以在運行測試之前將名為PYTHONWARNINGS
的環境變量設置為值ignore
或使用 python 解釋器具有的-W ignore
開關。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.