在pyspark數據框中的第一個順序位置添加新列

Question

我有一個像這樣的pyspark數據框：

+--------+-------+-------+
| col1   | col2  | col3  |
+--------+-------+-------+
|  25    |  01   |     2 |
|  23    |  12   |     5 | 
|  11    |  22   |     8 |
+--------+-------+-------+

我想通過添加一個新列來創建新的數據框，如下所示：

+--------------+-------+-------+-------+
| new_column   | col1  | col2  | col3  |
+--------------+-------+-------+-------+
|  0           |  01   |     2 |  0    |
|  0           |  12   |     5 |  0    |
|  0           |  22   |     8 |  0    |
+--------------+-------+-------+-------+

我知道我可以按以下方式添加列：

df.withColumn("new_column", lit(0))

但是它最后像這樣添加列：

+--------------+-------+-------+-------------+
| col1         | col1  | col2  | new_column  |
+--------------+-------+-------+-------------+
|  25          |  01   |     2 |  0          |
|  23          |  12   |     5 |  0          |
|  11          |  22   |     8 |  0          |
+--------------+-------+-------+-------------+

Answer 1

您可以使用select重新排序列。

df = df.select('new_column','col1','col2','col3')
df.show()

Answer 2

您可以使用始終重新排序火花數據幀中的列select ，如圖這篇文章。

在這種情況下，您還可以使用select和alias一步實現預期的輸出，如下所示：

df = df.select(lit(0).alias("new_column"), "*")

從邏輯上講，它等效於以下SQL代碼：

SELECT 0 AS new_column, * FROM df

Answer 3

df.select(['new_column', 'col1', 'col2', 'col3'])

Answer 4

您可以使用INSERT函數

    df.insert(0, 'new_column', [data,,,])

謝謝

在pyspark數據框中的第一個順序位置添加新列

問題描述

4 個解決方案

解決方案1
2 2018-11-16 13:45:51

解決方案2
1 2018-11-16 15:37:21

解決方案3
0 2018-11-16 15:13:33

解決方案4
0 2019-06-23 12:58:58

在pyspark數據框中的第一個順序位置添加新列

問題描述

4 個解決方案

解決方案1 2 2018-11-16 13:45:51

解決方案2 1 2018-11-16 15:37:21

解決方案3 0 2018-11-16 15:13:33

解決方案4 0 2019-06-23 12:58:58

解決方案1
2 2018-11-16 13:45:51

解決方案2
1 2018-11-16 15:37:21

解決方案3
0 2018-11-16 15:13:33

解決方案4
0 2019-06-23 12:58:58