cost 112 ms
如何更改现有 dataframe 的模式 - How to change the schema of existing dataframe

问题陈述:我有一个 csv 文件,其中包含大约 100 多个字段。我需要对这些字段执行转换并生成新的 80 多个字段,并仅将这些新字段以 parquet 格式写入 s3。 parquet 预定义架构 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在将数据写入 s3 时传递此预定义 ...

在 scala 中对 dataframe 中的对象数组进行分组和聚合的最佳方法是什么 - What's the best way to group and aggregate an array of objects in a dataframe in scala

一个例子: _4 是我要分组和求和的计数、日期和标签的集合 我希望得到的 output 是这样的,它按对象中的前 3 列和第三个元素(标签)分组,同时对第一个元素(计数)求和。 dataframe 的架构如下所示 ...

Gatling - Scala(如何解决“无法将 class java.lang.String 类型的属性‘cursorID’转换为 class scala.Option?) - Gatling - Scala (How to solve "Can't cast attribute ' cursorID' of type class java.lang.String into class scala.Option?)

Gatling - Scala(如何解决“无法将 class java.lang.String 类型的属性‘cursorID’转换为 class scala.Option?) 我正在执行基于 cursor 的分页脚本 - 循环数百万数据,但我在.check(jsonPath("$.nextCur ...

如何从两个元组序列构建一个 Scala 元组序列? - How to build a Scala sequence of tuples from two sequences of tuples?

我有两个元组序列: 我需要通过元组比较 Long 参数的值来获得一个新序列。 比较准则是:如果seqB的seqB严格大于seqA的integer则只保留seqB的seqB 。 比较算法必须执行以下任务: 对于"0" , 123严格大于50所以我们保留123 。 另一方面,对于值"1" , 10小于 ...

将查询结果存储在变量中时如何避免 Scala 中的 NullPointerException - How to avoid NullPointerException in Scala while storing query result in variable

这是需要更改的代码: 当我们运行一个作业时,'activityDate' 可能会返回 null 作为查询结果,因为数据库中可能没有任何数据。 在这种情况下,我们得到 NullPointerException。 我需要更新此代码以避免 NPE。 我尝试以不同的方式来做,但总是缺少 smth。 我应该 ...

2023-01-31 07:16:46   1   37    scala / match  
在 Scala 中绑定通配符类型参数 - Bind wildcard type argument in Scala

在 Scala 2 中,您当然可以使用通配符或存在类型作为类型 arguments。但是,这意味着您并不总是有想要使用的类型的名称。 这有时会导致奇怪的情况,您需要依靠类型推断来规避显式编写类型。 这是我的意思的一个有点人为的例子:case class Container[T](value: T) ...

Scala 访问case class属性的反射问题 - Scala Reflection issue on accessing case class attributes

我已经能够使用带有反射的 scala 获得案例 class 的属性列表。 然而, .equals不起作用,但没有给出错误 -> 所以我遗漏了一些东西,我无法用谷歌搜索它。 必须是基本的东西。 .replace不起作用,怎么会是 go? 我怎样才能得到一个正常的列表进行处理? 我注意到一个Li ...

如何将复杂的嵌套 JSON 结构翻译成 Spark 中的多列 DataFrame - How to translate a complex nested JSON structure into multiple columns in a Spark DataFrame

我正在学习 Scala,并试图从一个大的嵌套 json 文件中过滤 select 几列,以生成 DataFrame。这是 json 的要点: 因此,数据看起来像这样,用 spark 读入。 而不是这个,我想要一个 DataFrame 的列:名称 | 聚会 | 党团会议。 我搞砸了 explode( ...

(字符串插值)如何使用 session 中的值作为键将值保存到 session? - (String interpolation) How to save value to the session using the value from the session as key?

我有以下代码可以发出简单的 POST 请求。 它应该如何工作? 在发出请求之前,我生成了一个测试值"orderName1"并将其保存到 session。接下来,我使用 function "create"来发出请求并在 function 中使用生成的值。它工作正常。 我的请求成功了,因此,我有一个动 ...

Scala中的函数式编程:Output文本文件中出现次数最多的单词(或单词列表)? - Functional programming in Scala: Output the word (or list of words) that occurs the most times in the text file?

Output 在文本文件中出现次数最多的单词(或单词列表)(不考虑大小写——即“单词”和“单词”为此目的被视为相同)。 我们只对包含字母字符 [AZ az] 的单词感兴趣,因此忽略任何数字(数字)、标点符号等。 如果有几个词出现频率最高,那么所有这些词都应该打印成一个列表。 在单词旁边,您应该 ...

获取指向另一个案例 Class 的案例 Class 定义 - Getting Case Class definition which points to another Case Class

我正在寻找案例 class 的定义。 从 SO 中,我根据案例 class 中的 Get field names list收集了这种做法,Dia Kharrat 使用反射的答案。 一些实验,其中我有一个案例 class 引用另一个案例 class,嵌套。 我们能否以某种方式轻松扩展元数据? 回报: ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM