cost 37 ms
"Pyspark:将样本转换为 Pandas 数据框"

我尝试从具有 1 亿行的数据帧( df_spark )中提取样本,并使用以下代码将其转换为 pandas 数据帧: 不幸的是,我收到以下错误: 我还尝试将其转换为 rdd 然后再转换为 pandas 并得到相同的错误。 我想知道一旦我有了示例列表,将其转换为 pandas 数据帧或 spa ...

2022-01-25 16:48:51 1 6
EventHub 的偏移量管理

摘要 - 我正在使用 Scala spark 读取 eventthub 作为源并保存为流数据帧 我的流数据帧输出如下所示 如何在此代码中实现偏移管理。 我了解检查站的位置。 但我想根据我的事件失败处理偏移量管理,并根据之前的偏移量处理下一次启动。 我无法实现这个逻辑。 感谢一些指导 ...

2022-01-25 15:10:31 0 7
将 Eventhub 固定长度数据流式传输到流式 DataFrame

摘要 - 我有一个作为 EventHub 的流媒体源,其中数据以固定长度格式接收。 现在我想将包含 fixedLength 的流式源读入 spark 数据帧 注意:我可以读取 fixedLength 是否来自目录并根据我的需要创建子字符串和分类。 但是对于像 eventHub 这样的流式源,我该怎么 ...

2022-01-25 11:27:46 1 18
"如何修复“无法将 JSON 字符串 'varchar(2)' 转换为数据类型。”"

我们想从 spark 3.0.1 迁移到 3.1.2。 根据迁移指南,表模式现在支持 varchar 数据类型。 不幸的是,旧版本的 spark 版本无法查询使用新版本载入的数据,旧版本将 varchar 视为表模式中的字符串。 根据迁移指南,在 Spark Session 配置中应用spark.s ...

2022-01-25 09:55:47 0 11
"PySpark:获取字符串中每个单词的第一个字符"

对于一项任务,我被要求将客户的名称缩短为每个名称的第一个字母,它们之间用空格字符分隔。 我在 Python 中找到了很多解决方案,但我无法将其转换为数据框。 DF 看起来像这样: | ID | Name | | -------- | ------------- ...

2022-01-25 09:26:27 1 15

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM