簡體 English 中英

從 Spark 迭代到 Pandas Dataframe

[英]From Spark to Pandas Dataframe iteratively

原文 2017-02-03 13:57:46 4 2 python/ pandas/ apache-spark/ pyspark

在 Spark 中有一個數據，並希望將其轉換為 Pandas 數據框以供進一步分析。 這樣做：

dataset = sqlContext.sql('SELECT * FROM TEMP')

df=dataset.toPandas()

但是桌子好像很大，Pandas處理的時候耗費的時間也很多。

toPandas () 函數是否具有迭代或塊大小（如 pandas 中的 read_csv）之類的屬性，用於迭代傳輸數據以提高性能？

謝謝！

2 個解決方案

toPandas()方法本身沒有選項。 在此處查看函數的源代碼。

正如評論者所提到的（並在該方法的文檔字符串中指出）你有身體上無法做到這一點的風險，而且我不確定你可以用你無法弄清楚如何做的熊貓做些什么在火花中做。

如果你真的想在 Python 中使用 Spark 數據塊做一些事情，那么你最好的選擇是將數據以 CSV 格式寫入文件系統，然后以塊的形式讀回。

迭代地繪制來自熊貓數據框的值

[英]Iteratively plot values from a pandas dataframe

迭代創建 Pandas DataFrame

[英]Create pandas DataFrame iteratively

從火花 dataframe 到 pandas dataframe

[英]from spark dataframe to pandas dataframe

Pandas 迭代地追加來自多個 DataFrame 列的行值

[英]Pandas iteratively append row values from multiple DataFrame columns

如何在Pandas Dataframe中迭代計數

[英]How to iteratively count in Pandas Dataframe

用多索引迭代連接熊貓數據框

[英]Iteratively concatenate pandas dataframe with multiindex

在 pandas dataframe 中迭代保存輸出

[英]Iteratively saving outputs in a pandas dataframe

迭代命名 pandas DataFrame 中的列？

[英]Iteratively naming columns in a pandas DataFrame?

從數據幀迭代插入

[英]Iteratively INSERTing from a Dataframe

熊貓系列的Spark DataFrame

[英]Spark DataFrame from pandas Series

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 迭代地繪制來自熊貓數據框的值迭代創建 Pandas DataFrame 從火花 dataframe 到 pandas dataframe Pandas 迭代地追加來自多個 DataFrame 列的行值如何在Pandas Dataframe中迭代計數用多索引迭代連接熊貓數據框在 pandas dataframe 中迭代保存輸出迭代命名 pandas DataFrame 中的列？從數據幀迭代插入熊貓系列的Spark DataFrame

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM