PySpark 內連接產生太多行？

Question

我在 Jupyter Notebook 中使用 PySpark。 我正在嘗試使用 2 個數據集進行內部連接：一個有 2455 行，另一個超過 100 萬行。 為什么內部連接會產生這么多行？ 當然，它的行數應該少於 <2455？ 有人可以給我建議嗎？

print(df.count(),len(df.columns))
19725379 90

print(df1.count(),len(df1.columns))
2455 37

df3 = df.join(df1,"ADDRESS1", "inner")
df3.dropDuplicates(subset=['ADDRESS1']).count
print(df3.count(),len(df3.columns))
603050 126

df3 = df.join(df1,"ADDRESS1", "inner")
print(df3.count(),len(df3.columns))
603050 126

Answer 1

不，這不是必須的，舉這個例子

df 1 =

+------+------+
| t1   | t2   |
+------+------+
|    1 | A    |
|    2 | B    |
+------+------+

df 2 =

+------+------+
| t1   | t3   |
+------+------+
|    1 | A2   |
|    2 | B2   |
|    3 | C2   |
|    1 | D2   |
|    2 | E2   |
+------+------+

用您的話來說，帶有鍵“t1”的內部連接的長度必須不超過2，但不能：

關於第一列的內部連接將是：

+------+------+------+
| t1   | t2   | t3   |
+------+------+------+
|    1 | A    | A2   |
|    1 | A    | D2   |
|    2 | B    | B2   |
|    2 | B    | E2   |
+------+------+------+

PySpark 內連接產生太多行？

問題描述

1 個解決方案

解決方案1
1 2020-12-10 18:03:50

PySpark 內連接產生太多行？

問題描述

1 個解決方案

解決方案1 1 2020-12-10 18:03:50

解決方案1
1 2020-12-10 18:03:50