簡體   English   中英

從 Spark 迭代到 Pandas Dataframe

[英]From Spark to Pandas Dataframe iteratively

在 Spark 中有一個數據,並希望將其轉換為 Pandas 數據框以供進一步分析。 這樣做:

dataset = sqlContext.sql('SELECT * FROM TEMP')

df=dataset.toPandas()

但是桌子好像很大,Pandas處理的時候耗費的時間也很多。

toPandas () 函數是否具有迭代或塊大小(如 pandas 中的 read_csv)之類的屬性,用於迭代傳輸數據以提高性能?

謝謝!

toPandas()方法本身沒有選項。 此處查看函數的源代碼。

正如評論者所提到的(並在該方法的文檔字符串中指出)你有身體上無法做到這一點的風險,而且我不確定你可以用你無法弄清楚如何做的熊貓做些什么在火花中做。

如果你真的想在 Python 中使用 Spark 數據塊做一些事情,那么你最好的選擇是將數據以 CSV 格式寫入文件系統,然后以塊的形式讀回。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM