簡體 English 中英

在Spark Dataframe行上進行操作

[英]Manipulation on Spark Dataframe row

原文 2016-05-04 14:36:23 8 1 apache-spark/ dataframe/ rdd

我是Spark，Scala等新手，下面是我的代碼

val eventdf = sqlContext.sql("SELECT sensor, data.actor FROM eventTable")

eventdf.map {
  case (r) => (r.getString(0) + count, r.getString(1), count)
}.saveToCassandra("caliper", "event", SomeColumns("sensor", "sendtime", "count"))

在這里，我想用r.getString(1)執行一些操作，然后傳遞給cassandra保存。

1 個解決方案

如果您不能將轉換直接應用於dataframe列，則可以提出以下建議：

import org.apache.spark.sql.Row
import sqlContext.implicits._

val newRDD = eventdf.map {
  case Row(val1: String, val2: String) => 
    // process val2 here and save the result to val2_processed
    (val1 + count, val2_processed, count) 
}

val newDF = newRDD.toDF("col1", "col2", "col3") // If you need to convert it back to DF

newDF.saveToCassandra(...)

火花 Dataframe 操縱

[英]Spark Dataframe manipulation

Spark dataframe Scala 中的列操作

[英]Spark dataframe colums manipulation in Scala

逐行更新 Spark Dataframe

[英]Update Spark Dataframe row by row

使用行定界符分割Spark數據框

[英]Split a spark dataframe with row delimiter

Spark：規范化數據幀的每一行

[英]Spark: normalize each row of a DataFrame

按行索引拆分 Spark 數據幀

[英]Split Spark dataframe by row index

刪除Spark DataFrame的第一行

[英]Drop first row of Spark DataFrame

Spark Dataframe：行對象分隔符

[英]Spark Dataframe:Row object separator

如何在 Spark 數據框的列值中進行字符串操作

[英]How to do string manipulation in Spark dataframe's columns value

Spark Dataframe 時間戳列操作失敗，沒有任何錯誤消息

[英]Spark Dataframe timestamp column manipulation failing without any error message

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 火花 Dataframe 操縱 Spark dataframe Scala 中的列操作逐行更新 Spark Dataframe 使用行定界符分割Spark數據框 Spark：規范化數據幀的每一行按行索引拆分 Spark 數據幀刪除Spark DataFrame的第一行 Spark Dataframe：行對象分隔符如何在 Spark 數據框的列值中進行字符串操作 Spark Dataframe 時間戳列操作失敗，沒有任何錯誤消息

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM