繁体 English 中英

从 Spark 迭代到 Pandas Dataframe

[英]From Spark to Pandas Dataframe iteratively

原文 2017-02-03 13:57:46 0 2 python/ pandas/ apache-spark/ pyspark

在 Spark 中有一个数据，并希望将其转换为 Pandas 数据框以供进一步分析。 这样做：

dataset = sqlContext.sql('SELECT * FROM TEMP')

df=dataset.toPandas()

但是桌子好像很大，Pandas处理的时候耗费的时间也很多。

toPandas () 函数是否具有迭代或块大小（如 pandas 中的 read_csv）之类的属性，用于迭代传输数据以提高性能？

谢谢！

2 个解决方案

toPandas()方法本身没有选项。 在此处查看函数的源代码。

正如评论者所提到的（并在该方法的文档字符串中指出）你有身体上无法做到这一点的风险，而且我不确定你可以用你无法弄清楚如何做的熊猫做些什么在火花中做。

如果你真的想在 Python 中使用 Spark 数据块做一些事情，那么你最好的选择是将数据以 CSV 格式写入文件系统，然后以块的形式读回。

迭代地绘制来自熊猫数据框的值

[英]Iteratively plot values from a pandas dataframe

迭代创建 Pandas DataFrame

[英]Create pandas DataFrame iteratively

从火花 dataframe 到 pandas dataframe

[英]from spark dataframe to pandas dataframe

Pandas 迭代地追加来自多个 DataFrame 列的行值

[英]Pandas iteratively append row values from multiple DataFrame columns

如何在Pandas Dataframe中迭代计数

[英]How to iteratively count in Pandas Dataframe

用多索引迭代连接熊猫数据框

[英]Iteratively concatenate pandas dataframe with multiindex

在 pandas dataframe 中迭代保存输出

[英]Iteratively saving outputs in a pandas dataframe

迭代命名 pandas DataFrame 中的列？

[英]Iteratively naming columns in a pandas DataFrame?

从数据帧迭代插入

[英]Iteratively INSERTing from a Dataframe

熊猫系列的Spark DataFrame

[英]Spark DataFrame from pandas Series

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 迭代地绘制来自熊猫数据框的值迭代创建 Pandas DataFrame 从火花 dataframe 到 pandas dataframe Pandas 迭代地追加来自多个 DataFrame 列的行值如何在Pandas Dataframe中迭代计数用多索引迭代连接熊猫数据框在 pandas dataframe 中迭代保存输出迭代命名 pandas DataFrame 中的列？从数据帧迭代插入熊猫系列的Spark DataFrame

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM