cost 62 ms
当字符串以“d”结尾时,Spark 错误地将数据类型从 csv 解释为 Double

[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'

有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...

使用 pyspark 读取目录中的 excel 文件

[英]Read excel file in a directory using pyspark

`嗨,我正在尝试使用 pyspark 读取目录中的 excel 文件,但出现 fielnotfound 错误 `env_path='dbfs:/mnt' raw='dev/raw/work1' 路径=环境路径+原始文件路径=路径+'/' objects = dbutils.fs.ls(文件路径 ...

每次在 PySpark 中重命名该列是否在某些文件中使用不同的名称?

[英]Rename the column every time in PySpark if it is coming with different name in some files?

如果列名中包含address ,我每次都必须重命名列名。 例如,对于第一个文件,我收到的列为ADDRESS1 、 ADDRESS2 、 ADDRESS3 : 对于下一个文件,我收到的列名称为T_ADDRESS1 、 T_ADDRESS2 、 TADDRESS3 : 因为我只会编写一次此代码并将 ...

以不同数量的列读入的数据帧,如何将仅 Boolean 的列的数据类型动态更改为字符串数据类型?

[英]Data Frames being read in with varying number of columns, how do I dynamically change data types of only columns that are Boolean to String data type?

在我的笔记本中,我有正在读取的数据框,每次运行笔记本时都会有可变数量的列。 如何仅将 Boolean 数据类型的列的数据类型动态更改为字符串数据类型? 这是我面临的一个问题,所以我发布答案以防万一这对其他人有帮助。 数据框的名称是“df”。 在这里,我们将传入数据集中的每一列(Boolean 数据 ...

在 Databricks 作业中加载表将所有列转换为小写

[英]Loading table in Databricks job converts all columns to lowercase

我有一个 SQL 视图作为表存储在 Databricks 中,所有列都大写。 当我使用 spark.table(<<table_name>>) 在 Databricks 作业中加载表时,所有列都转换为小写,这导致我的代码崩溃。 但是,当我在一个简单的笔记本中以相同的方式加载表 ...

Pyspark 中的 JSON 格式

[英]JSON Fomatting in Pyspark

我有一个 json 以以下格式存储为字符串 我有近 7000 万个这种格式的 json 字符串。 我想使用 python pandas 中的 json_normalize,但由于记录数,我正在考虑使用 pyspark。 有人可以指导在 Glue 表中处理和存储这些 json 字符串的最佳方法是什 ...

无法使用 spark concat 方法从列表中创建新列?

[英]Unable to create a new column from a list using spark concat method?

我有以下数据框,我试图通过连接列表中的名称来创建一个新列 但上面返回相同的结果 我怀疑这可能是由于 DF 中列名中的空格所致。 所以我用 trim 删除了列名中的所有空格,但没有成功。 它返回相同的结果对此有什么解决办法吗? ...

将不同键的 pyspark 数据框列解析为一个键值的新列

[英]parse pyspark dataframe column of varying keys into new column for one key's values

我有一个输入 pyspark 数据框 df。 数据框 df 有一列“field1”,其中的值是字典。 字典并不都有相同的键。 我想将“b”键解析为一个新字段“newcol”。 更复杂的事情 field1 是数据类型字符串。 我已经尝试了下面的代码,但我得到了下面的错误。 有没有人建议如何做到这一点? ...

如何在 Pyspark Dataframe 中按顺序迭代行

[英]how to sequentially iterate rows in Pyspark Dataframe

我有一个像这样的 Spark DataFrame: 我想将一行的自然列与具有相同Account和value的其他行进行比较,我应该向前看,并添加名为Repeated的新列。 如果性质从1变为0 ,则新列对两行都成立,反之亦然。 例如,上面的数据框应如下所示: 我的解决方案是我必须在Accou ...

如何在 PySpark 中使用 struct 列创建数据框而不指定架构?

[英]How to create dataframe with struct column in PySpark without specifying a schema?

我正在学习 PySpark,能够快速创建示例数据框以尝试 PySpark API 的功能很方便。 以下代码(其中spark是 spark 会话): import pyspark.sql.types as T df = [{'id': 1, 'data': {'x': 'mplah', 'y': [ ...

pyspark json 至 dataframe 模式

[英]pyspark json to dataframe schema

我有棘手的 json,我想将其加载到 dataframe 中,并且需要有关如何定义模式的帮助 需要 dataframe output ID 父亲孩子们 1个约翰 [“杰克”、“简”、“吉姆”] 2个克里斯 [“法案”,“将”] ...

我想根据其他两列获得一列的最大值,第四列是重复次数最多的值

[英]i want to obtain max value of a column depending on two other columns and for the forth column the value of the most repeated number

我有这个 dataframe 我这样做是为了获得 a 和 b 夫妇的最大值 c 但现在我需要得到 d 的值应该是 我试图在 df1 和 df2 之间进行内部连接,但这没有用: 我是 pyspark 的初学者,所以我需要一点帮助来解决这个问题 ...


排序:
质量:
 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM