如何遍歷pyspark中的每一行dataFrame

Question

例如

sqlContext = SQLContext(sc)

sample=sqlContext.sql("select Name ,age ,city from user")
sample.show()

上面的語句在終端上打印整個表。 但我想使用for或while訪問該表中的每一行以執行進一步的計算。

Answer 1

你根本不能。 DataFrames與其他分布式數據結構一樣，不可迭代，只能使用專用的高階函數和/或 SQL 方法訪問。

你當然可以collect

for row in df.rdd.collect():
    do_something(row)

或轉換為toLocalIterator

for row in df.rdd.toLocalIterator():
    do_something(row)

並在本地進行迭代，如上所示，但它超越了使用 Spark 的所有目的。

Answer 2

要“循環”並利用 Spark 的並行計算框架，您可以定義自定義函數並使用 map。

def customFunction(row):

   return (row.name, row.age, row.city)

sample2 = sample.rdd.map(customFunction)

或

sample2 = sample.rdd.map(lambda x: (x.name, x.age, x.city))

然后將自定義函數應用於數據幀的每一行。 請注意， sample2 將是RDD ，而不是數據幀。

如果您要執行更復雜的計算，則可能需要 Map。 如果您只需要添加一個簡單的派生列，您可以使用withColumn ，並返回一個數據withColumn 。

sample3 = sample.withColumn('age2', sample.age + 2)

Answer 3

在 Python 中使用列表推導式，您只需使用兩行就可以將一整列值收集到一個列表中：

df = sqlContext.sql("show tables in default")
tableList = [x["tableName"] for x in df.rdd.collect()]

在上面的示例中，我們返回數據庫“default”中的表列表，但可以通過替換 sql() 中使用的查詢來調整相同的表。

或者更縮寫：

tableList = [x["tableName"] for x in sqlContext.sql("show tables in default").rdd.collect()]

對於您的三列示例，我們可以創建一個字典列表，然后在 for 循環中遍歷它們。

sql_text = "select name, age, city from user"
tupleList = [{name:x["name"], age:x["age"], city:x["city"]} 
             for x in sqlContext.sql(sql_text).rdd.collect()]
for row in tupleList:
    print("{} is a {} year old from {}".format(
        row["name"],
        row["age"],
        row["city"]))

Answer 4

像這樣試一試

    result = spark.createDataFrame([('SpeciesId','int'), ('SpeciesName','string')],["col_name", "data_type"]); 
    for f in result.collect(): 
        print (f.col_name)

Answer 5

如果您想對 DataFrame 對象中的每一行執行某些操作，請使用map 。 這將允許您對每一行執行進一步的計算。 這相當於從0到len(dataset)-1遍歷整個數據len(dataset)-1 。

請注意，這將返回一個 PipelinedRDD，而不是一個 DataFrame。

Answer 6

這可能不是最佳實踐，但您可以簡單地使用collect()定位特定列，將其導出為行列表，然后遍歷列表。

假設這是您的 df：

+----------+----------+-------------------+-----------+-----------+------------------+ 
|      Date|  New_Date|      New_Timestamp|date_sub_10|date_add_10|time_diff_from_now|
+----------+----------+-------------------+-----------+-----------+------------------+ 
|2020-09-23|2020-09-23|2020-09-23 00:00:00| 2020-09-13| 2020-10-03| 51148            | 
|2020-09-24|2020-09-24|2020-09-24 00:00:00| 2020-09-14| 2020-10-04| -35252           |
|2020-01-25|2020-01-25|2020-01-25 00:00:00| 2020-01-15| 2020-02-04| 20963548         |
|2020-01-11|2020-01-11|2020-01-11 00:00:00| 2020-01-01| 2020-01-21| 22173148         |
+----------+----------+-------------------+-----------+-----------+------------------+

循環遍歷日期列中的行：

rows = df3.select('Date').collect()

final_list = []
for i in rows:
    final_list.append(i[0])

print(final_list)

Answer 7

以上

tupleList = [{name:x["name"], age:x["age"], city:x["city"]}

應該是

tupleList = [{'name':x["name"], 'age':x["age"], 'city':x["city"]}

因為name 、 age和city不是變量，而只是字典的鍵。

Answer 8

我不確定在撰寫本文時這是否不可能，但是有多種方法可以通過 spark DataFrame 進行迭代，請參閱此處的所有文檔： https ://sparkbyexamples.com/pyspark/pyspark-loop-iterate -通過數據幀中的行/

如何遍歷pyspark中的每一行dataFrame

問題描述

7 個解決方案

解決方案1
62

解決方案2
62 2016-04-01 16:56:12

解決方案3
13 2016-09-21 05:41:20

解決方案4
6 2019-02-07 08:52:39

解決方案5
2 2016-04-01 15:25:52

解決方案6
2 2020-09-23 02:30:45

解決方案7
1 2018-01-21 05:48:19

解決方案8
-1 2021-12-16 13:12:05

如何遍歷pyspark中的每一行dataFrame

問題描述

7 個解決方案

解決方案1 62

解決方案2 62 2016-04-01 16:56:12

解決方案3 13 2016-09-21 05:41:20

解決方案4 6 2019-02-07 08:52:39

解決方案5 2 2016-04-01 15:25:52

解決方案6 2 2020-09-23 02:30:45

解決方案7 1 2018-01-21 05:48:19

解決方案8 -1 2021-12-16 13:12:05

解決方案1
62

解決方案2
62 2016-04-01 16:56:12

解決方案3
13 2016-09-21 05:41:20

解決方案4
6 2019-02-07 08:52:39

解決方案5
2 2016-04-01 15:25:52

解決方案6
2 2020-09-23 02:30:45

解決方案7
1 2018-01-21 05:48:19

解決方案8
-1 2021-12-16 13:12:05