[英]Filter a Dataframe using a subset of it and two specific fields in spark/scala
[英]scala/spark filter dataframe with multiple conditions using sql
我需要在 upsert 之前过滤 df 。 Df 没有索引列,并且每一行都不同:
数据框如下所示:
+---+---+---+---+--------+---+
| Col1| Col2| Col3| Col4| Col5|
+---+---+---+---+--------+---+
| Area| null| null| null| null|
| Data| null| XRP 36| null| null|
| 2020-01-02| 2020-01-03| 2020-01-04| 2020-01-05| null|
| SUM | null| null| null| null|
| 0.5 | 0.8| .5| 0.2| 13|
| Area | null| null| null| null|
| Price | null| null| null| null|
| 4000VBG | 4000VBG| 4000VBG| 4000VBG| null|
| Data | null| FDX 45| null| null|
| 2020-02-02 | 2020-02-03| 2020-02-04| 2020-02-05| null|
| SUM | null| null| null| null|
| 0.5 | 0.8| .5| 0.2| 13|
+---+---+---+---+--------+
我需要这样的 output :
+---+---+---+---+--------+---+
| Col1| Ccol2| Col3| Col4| C5|
+---+---+---+---+--------+---+
| Data| null| XRP 36| null| null|
| 2020-01-02| 2020-01-03| 2020-01-04| 2020-01-05| null|
| 0.5| 0.8| .5| 0.2| 13|
| Data| null| FDX 45| null| null|
| 2020-02-02| 2020-02-03| 2020-02-04| 2020-02-05| null|
| 0.5| 0.8| .5| 0.2| 13|
+---+---+---+---+--------+
所以对于每一行都有“数据”我需要数据、日期和值。
谢谢
嗯。 . . 我想你只是不想not null
:
select t.*
from t
where col2 is not null or col3 is not null or col4 is not null;
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.