[英]Handling comma delimited columns with dependency on another column in Spark dataset
我有以下火花數據框/數據集。
column_1 column_2 column_3 column_4
A,B NameA,NameB F NameF
C NameC NULL NULL
NULL NULL D,E NameD,NULL
G NULL H NameH
I NameI J NULL
以上 4 列均以逗號分隔。 我必須將其轉換為只有 2 列且沒有任何逗號分隔符的新數據框/數據集。 column_1 中的值及其在 Column_2 中的對應名稱應寫入 output。 對於 column_3 和 column_4 也是如此。 如果 column_1 和 column_2 都是 null,則在 output 中不需要它們。
預期 output:
out_column_1 out_column_2
A NameA
B NameB
F NameF
C NameC
D NameD
E NULL
G NULL
H NameH
I NameI
J NULL
有沒有辦法在不使用 UDF 的情況下在 Java spark 中實現這一點?
Scala 解決方案 - 我認為應該在 Java 中工作。 基本上只需將 col1、col2 與 col3、col4 分開處理,然后合並結果。 與 arrays 有很多爭論。
// maybe replace this with Dataset<Row> result = ... in Java
val result = df.select(
split(col("column_1"), ",").alias("column_1"),
split(col("column_2"), ",").alias("column_2")
).filter(
"column_1 is not null"
).select(
explode(
arrays_zip(
col("column_1"),
coalesce(col("column_2"), array(lit(null)))
)
)
).select(
"col.*"
).union(
df.select(
split(col("column_3"), ",").alias("column_3"),
split(col("column_4"), ",").alias("column_4")
).filter(
"column_3 is not null"
).select(
explode(
arrays_zip(
col("column_3"),
coalesce(col("column_4"), array(lit(null)))
)
)
).select("col.*")
).toDF(
"out_column_1", "out_column_2"
)
result.show
+------------+------------+
|out_column_1|out_column_2|
+------------+------------+
| A| NameA|
| B| NameB|
| C| NameC|
| G| null|
| I| NameI|
| F| NameF|
| D| NameD|
| E| null|
| H| NameH|
| J| null|
+------------+------------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.