Scala - 刪除 Spark DataFrame 的第一行

Question

我知道數據幀應該是不可變的，而且我知道嘗試改變它們並不是一個好主意。 但是，我收到的文件有一個無用的 4 列標題（整個文件有 50 多列）。 所以，我想要做的就是去掉最上面的一行，因為它把所有東西都扔掉了。

我嘗試了許多不同的解決方案（主要在這里找到），例如使用 .filter() 和地圖替換，但沒有任何工作。

以下是數據外觀的示例：

H | 300 | 23098234 | N
D | 399 | 54598755 | Y | 09983 | 09823 | 02983 | ... | 0987098
D | 654 | 65465465 | Y | 09983 | 09823 | 02983 | ... | 0987098
D | 198 | 02982093 | Y | 09983 | 09823 | 02983 | ... | 0987098

有任何想法嗎？

Answer 1

到目前為止我見過的最干凈的方法是過濾掉第一行

csv_rows           = sc.textFile('path_to_csv')
skipable_first_row = csv_rows.first() 
useful_csv_rows    = csv_rows.filter(row => row != skipable_first_row)

Answer 2

如果您的數據框只有 1 個分區，這應該可以工作：

val dfWithoutFirstRow = df.mapPartitions(iterator => iterator.drop(1))

否則看這里

Scala - 刪除 Spark DataFrame 的第一行

問題描述

2 個解決方案

解決方案1
1 2016-09-23 01:52:43

解決方案2
-1 2016-09-23 06:44:08

Scala - 刪除 Spark DataFrame 的第一行

問題描述

2 個解決方案

解決方案1 1 2016-09-23 01:52:43

解決方案2 -1 2016-09-23 06:44:08

解決方案1
1 2016-09-23 01:52:43

解決方案2
-1 2016-09-23 06:44:08