繁体   English   中英

我想从一个数据框中选择其值存在/不存在于另一个数据框中的所有记录。 如何使用 pyspark 数据框执行此操作?

[英]I want to select all records from one dataframe where its value exists/not exists in another dataframe. How to do this using pyspark dataframes?

我有两个 pyspark 数据框。 我想从 voutdf 中选择其“哈希”在 vindf.tx_hash 中不存在的所有记录

如何使用 pyspark 数据框执行此操作。? 我尝试了半连接,但最终出现了内存不足错误。

voutdf = sqlContext.createDataFrame(voutRDD,["hash", "value","n","pubkey"])

vindf = sqlContext.createDataFrame(vinRDD,["txid", "tx_hash","vout"])

您可以使用left-anti join 来做到这一点:

df = voutdf.join(vindf.withColumnRenamed("tx_hash", "hash"), "hash", 'left_anti')

左反加入:

它从左侧数据集中获取在右侧数据集中没有匹配的所有行。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM