[英]Subtract in pyspark dataframe
我想知道subtract
原理
target_df = df.subtract(df1)
要么將不在df1
的行返回到target_df
要么將不在df1
df
行返回到target_df
讓我們假設以下示例:
df1 has values as (1,2,3,4,5,6)
df2 has values as (3,4,5,6,7,8)
然后target_df = df1.subtract(df2)的值將為“ df1中的值-兩個dfs中的公共值”,即
(1,2,3,4,5,6) - (3,4,5,6) = (1,2)
請按照以下代碼運行:
from pyspark.sql import Row
df1 = spark.sparkContext.parallelize([Row(1), Row(2), Row(3), Row(4), Row(5), Row(6)]).toDF()
df2 = spark.sparkContext.parallelize([Row(3), Row(4), Row(5), Row(6), Row(7), Row(8)]).toDF()
target_df = df1.subtract(df2)
target_df.show()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.