繁体   English   中英

scala/火花过滤器 dataframe 使用 sql 的多个条件

[英]scala/spark filter dataframe with multiple conditions using sql

我需要在 upsert 之前过滤 df 。 Df 没有索引列,并且每一行都不同:

数据框如下所示:

+---+---+---+---+--------+---+
| Col1| Col2| Col3| Col4| Col5|
+---+---+---+---+--------+---+
|  Area| null|  null| null| null|
|  Data| null|  XRP 36| null| null|
|  2020-01-02| 2020-01-03| 2020-01-04| 2020-01-05| null|
|  SUM |  null| null| null| null|
|  0.5 |  0.8|  .5| 0.2| 13|
|  Area | null|  null| null| null|
|  Price | null|  null| null| null|
|  4000VBG | 4000VBG|  4000VBG| 4000VBG| null|
|  Data | null|  FDX 45| null| null|
|  2020-02-02 | 2020-02-03| 2020-02-04| 2020-02-05| null|
|  SUM |  null| null| null| null|
|  0.5 |  0.8|  .5| 0.2| 13|
+---+---+---+---+--------+

我需要这样的 output :

 +---+---+---+---+--------+---+
| Col1| Ccol2| Col3| Col4| C5|
+---+---+---+---+--------+---+
|  Data| null|  XRP 36| null| null|
|  2020-01-02| 2020-01-03| 2020-01-04| 2020-01-05| null|
|  0.5|  0.8|  .5| 0.2| 13|
|  Data| null|  FDX 45| null| null|
|  2020-02-02| 2020-02-03| 2020-02-04| 2020-02-05| null|
|  0.5|  0.8|  .5| 0.2| 13|
+---+---+---+---+--------+

所以对于每一行都有“数据”我需要数据、日期和值。

谢谢

嗯。 . . 我想你只是不想not null

select t.*
from t
where col2 is not null or col3 is not null or col4 is not null;

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM