簡體   English   中英

我想從一個數據框中選擇其值存在/不存在於另一個數據框中的所有記錄。 如何使用 pyspark 數據框執行此操作?

[英]I want to select all records from one dataframe where its value exists/not exists in another dataframe. How to do this using pyspark dataframes?

我有兩個 pyspark 數據框。 我想從 voutdf 中選擇其“哈希”在 vindf.tx_hash 中不存在的所有記錄

如何使用 pyspark 數據框執行此操作。? 我嘗試了半連接,但最終出現了內存不足錯誤。

voutdf = sqlContext.createDataFrame(voutRDD,["hash", "value","n","pubkey"])

vindf = sqlContext.createDataFrame(vinRDD,["txid", "tx_hash","vout"])

您可以使用left-anti join 來做到這一點:

df = voutdf.join(vindf.withColumnRenamed("tx_hash", "hash"), "hash", 'left_anti')

左反加入:

它從左側數據集中獲取在右側數據集中沒有匹配的所有行。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM