[英]If one dataframe value exists in another dataframe, then get a value from the dataframe
[英]I want to select all records from one dataframe where its value exists/not exists in another dataframe. How to do this using pyspark dataframes?
我有两个 pyspark 数据框。 我想从 voutdf 中选择其“哈希”在 vindf.tx_hash 中不存在的所有记录
如何使用 pyspark 数据框执行此操作。? 我尝试了半连接,但最终出现了内存不足错误。
voutdf = sqlContext.createDataFrame(voutRDD,["hash", "value","n","pubkey"])
vindf = sqlContext.createDataFrame(vinRDD,["txid", "tx_hash","vout"])
您可以使用left-anti
join 来做到这一点:
df = voutdf.join(vindf.withColumnRenamed("tx_hash", "hash"), "hash", 'left_anti')
左反加入:
它从左侧数据集中获取在右侧数据集中没有匹配的所有行。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.