繁体   English   中英

Databricks中从csv格式到Redis hash格式的数据传输

[英]Data transfer from csv format to Redis hash format in Databricks

我有一个 Azure 系统,分为三个部分:

  1. 我有一些 csv 文件的 Azure 数据湖存储。
  2. 我需要在 Azure Databricks 中进行一些处理 - 正是将该 csv 文件转换为 Redis 哈希格式。
  3. Azure Redis 缓存我应该把转换后的数据放在哪里。

在 databricks 文件系统中安装存储后,需要处理一些数据。 如何将位于 databricks 文件系统中的 csv 数据转换为 redisHash 格式并正确地将其放入 Redis? 具体来说,我不确定如何通过以下代码进行正确的映射。 或者,是否有某种方法可以将其他传输到我找不到的 SQL 表。

这是我在 Scala 上编写的代码示例:

import com.redislabs.provider.redis._

val redisServerDnsAddress = "HOST"
val redisPortNumber = 6379
val redisPassword = "Password"
val redisConfig = new RedisConfig(new RedisEndpoint(redisServerDnsAddress, redisPortNumber, redisPassword))


val data = spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("/mnt/staging/data/file.csv")

// What is the right way of mapping?
val ds = table("data").select("Prop1", "Prop2", "Prop3", "Prop4", "Prop5" ).distinct.na.drop().map{x =>
  (x.getString(0), x.getString(1), x.getString(2), x.getString(3), x.getString(4))
}

sc.toRedisHASH(ds, "data")

错误:

error: type mismatch;
 found   : org.apache.spark.sql.Dataset[(String, String)]
 required: org.apache.spark.rdd.RDD[(String, String)]
sc.toRedisHASH(ds, "data")

如果我这样写最后一串代码:

sc.toRedisHASH(ds.rdd, "data")

错误:

org.apache.spark.sql.AnalysisException: Table or view not found: data;

准备一些示例数据来模拟从 CSV 文件加载的数据。

    val rdd = spark.sparkContext.parallelize(Seq(Row("1", "2", "3", "4", "5", "6", "7")))
    val structType = StructType(
      Seq(
        StructField("Prop1", StringType),
        StructField("Prop2", StringType),
        StructField("Prop3", StringType),
        StructField("Prop4", StringType),
        StructField("Prop5", StringType),
        StructField("Prop6", StringType),
        StructField("Prop7", StringType)
      )
    )
    val data = spark.createDataFrame(rdd, structType)

转型:

val transformedData = data.select("Prop1", "Prop2", "Prop3", "Prop4", "Prop5").distinct.na.drop()

将数据帧写入 Redis,使用Prop1作为键, data作为 Redis 表名。 查看文档

    transformedData
      .write
      .format("org.apache.spark.sql.redis")
      .option("key.column", "Prop1")
      .option("table", "data")
      .mode(SaveMode.Overwrite)
      .save()

查看Redis中的数据:

127.0.0.1:6379> keys data:*
1) "data:1"

127.0.0.1:6379> hgetall data:1
1) "Prop5"
2) "5"
3) "Prop2"
4) "2"
5) "Prop4"
6) "4"
7) "Prop3"
8) "3"

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM