cost 18 ms
"Pyspark:将样本转换为 Pandas 数据框"

我尝试从具有 1 亿行的数据帧( df_spark )中提取样本,并使用以下代码将其转换为 pandas 数据帧: 不幸的是,我收到以下错误: 我还尝试将其转换为 rdd 然后再转换为 pandas 并得到相同的错误。 我想知道一旦我有了示例列表,将其转换为 pandas 数据帧或 spa ...

2022-01-25 16:48:51 1 6
pyspark 将 one-hot 编码向量分解为具有正确名称的每一列

将 one-hot 编码应用于多个分类列 给我 这基本上是 我想将向量中的值分解为具有正确名称的新列。 期望的输出 From pyspark - 将一次热编码后获得的稀疏向量转换为列 我可以从X_cat_ohe添加新列,但是我无法确定哪个值(例如:state-gov)对应于第 0 ...

2022-01-25 15:10:56 1 15
从 PySpark 中的虚拟列中获取单列

我有一个如下所示的 PySpark df,其中事件 2020-01 和 2020-02 是假人(我总共有 18 个月)。 我想创建一个带有 id、事件和月份的新 df,其中月份是从"2020-01"和"2020-02"创建的列,其中这些列 == 1。所以所需的 df 如下所示: 我在这里找到 ...

2022-01-25 14:45:34 1 17
"如何为 Pyspark 实现 ODBC 连接?"

我正在使用以下代码将 PySpark 与Teradata服务器连接起来: 这可行,但我需要用Pyspark.Pandas API 替换普通的 Pandas。 当我用import pyspark.pandas as pd替换import pandas as pd时, 我得到错误 - j ...

2022-01-25 11:50:50 0 17
"PySpark:获取字符串中每个单词的第一个字符"

对于一项任务,我被要求将客户的名称缩短为每个名称的第一个字母,它们之间用空格字符分隔。 我在 Python 中找到了很多解决方案,但我无法将其转换为数据框。 DF 看起来像这样: | ID | Name | | -------- | ------------- ...

2022-01-25 09:26:27 1 15
使用 pyspark 从 Teradata 数据库将 Json 字符串导出为 CSV

我正在尝试通过创建数据框并使用 Dataframe.write 方法将其写入本地系统来创建从 teradata 数据库读取数据。 但是,我无法从 teradata 表中读取 json 字符串。 可能的解决方案是什么。 代码: 我得到的错误: Teradata 中的源数据: 如何使 ...

2022-01-25 08:26:08 0 11

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM