繁体   English   中英

通过 Pyspark (Python) 上的内部连接和过滤条件连接两个数据帧

[英]Joining two dataframes through an inner join and a filter condition on Pyspark (Python)

我需要根据右侧 dataframe 中一列的值将两个数据帧与内部连接和过滤条件连接起来。 我已经尝试了一些我在这里看到的问题,但到目前为止没有任何工作,有人可以帮忙吗?

我有两个数据框:df_consumos_diarios 和 df_facturas_mes_actual_flg。 他们有一个共同点:id_cliente

这是两个DF:

df_consumos_diarios.show(5)
+----------+----------------+------------+----------------------+---------------------+----------+
|id_cliente|consumo_datos_MB|sms_enviados|minutos_llamadas_movil|minutos_llamadas_fijo|     fecha|
+----------+----------------+------------+----------------------+---------------------+----------+
|         1|             664|           3|                    25|                    0|2020-08-01|
|         1|             943|           0|                    12|                    5|2020-08-02|
|         1|            1035|           1|                    46|                   10|2020-08-03|
|         1|             760|           3|                    17|                    0|2020-08-04|
|         1|            1409|           1|                    31|                    4|2020-08-05|


df_facturas_mes_actual_flg.show(5)
+----------+---------+-------+----------+----+-----------+
|id_cliente|id_oferta|importe|     fecha|edad|flg_mes_ant|
+----------+---------+-------+----------+----+-----------+
|         1|        9|   36.5|2020-07-31|  26|          1|
|         1|        6|  118.6|2020-07-31|  26|          1|
|         1|        6|  124.5|2020-07-31|  26|          1|
|         2|        4|   95.0|2020-07-31|  58|          1|
|         3|        5|  102.5|2020-07-31|  68|          1|
+----------+---------+-------+----------+----+-----------+

我想做内部连接而不是合并或连接的原因是因为这些是 pyspark.sql 数据帧,我认为这样更容易。

我想要做的是加入从这两个中创建一个新的 dataframe,我只在右侧 dataframe 的“flg_mes_ant”下显示不等于 1 的值。 当我编写内部连接子句时,代码可以正常工作,但是添加过滤条件会使一切变得混乱。 这是我迄今为止尝试过的:

   df2 = df_consumos_diarios.join(df_facturas_mes_actual_flg, on=["id_cliente"] & 
         [df_facturas_mes_actual_flg["flg_mes_ant"] != "1"], how='inner')

我收到的错误消息是:

类型错误:& 不支持的操作数类型:“列表”和“列表”

有谁知道我做错了什么以及如何克服这个错误?

您可以在加入后进行过滤:

import pyspark.sql.functions as F

df2 = df_consumos_diarios.join(
    df_facturas_mes_actual_flg, 
    on="id_cliente", 
    how='inner'
).filter(F.col("flg_mes_ant") != "1")

或者你可以在加入前过滤正确的dataframe(应该更高效):

df2 = df_consumos_diarios.join(
    df_facturas_mes_actual_flg.filter(df_facturas_mes_actual_flg["flg_mes_ant"] != "1"), 
    on="id_cliente", 
    how='inner'
)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM