
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]AttributeError: 'DataFrameWriter' object has no attribute 'schema'
我想编写一个带有修复模式的 Spark Dataframe。 我正在尝试: 我收到错误: AttributeError: 'DataFrameWriter' object has no attribute 'schema' ChatGPT回复我“看起来您正尝试在 DataFrameWriter ...
[英]Read excel file in a directory using pyspark
`嗨,我正在尝试使用 pyspark 读取目录中的 excel 文件,但出现 fielnotfound 错误 `env_path='dbfs:/mnt' raw='dev/raw/work1' 路径=环境路径+原始文件路径=路径+'/' objects = dbutils.fs.ls(文件路径 ...
[英]Read multiple CSVs with different headers into one single dataframe
我有几个 CSV 文件,其中有些文件可能有一些匹配的列,有些则有完全不同的列。 例如文件 1 有以下列: ['circuitId', 'circuitRef', 'name', 'location', 'country', 'lat', 'lng', 'alt', 'url'] file2 有 ...
[英]Rename the column every time in PySpark if it is coming with different name in some files?
如果列名中包含address ,我每次都必须重命名列名。 例如,对于第一个文件,我收到的列为ADDRESS1 、 ADDRESS2 、 ADDRESS3 : 对于下一个文件,我收到的列名称为T_ADDRESS1 、 T_ADDRESS2 、 TADDRESS3 : 因为我只会编写一次此代码并将 ...
[英]Update a specific value when 2 other values matches from 2 different tables in PySpark
知道如何在 PySpark 中写这个吗? 我有两个正在尝试合并的 PySpark 数据帧。 但是,我想根据 2 个重复的列值更新 1 个值。 PyDf1: PyDf2: 所需的 output: ...
[英]Using regular expression in pyspark to replace part of the key inside a column containing maps?
我被困在这个问题上。 我有一个 pyspark dataframe 看起来如下 - ID 年数据时间戳 1 2019 {'living_costs[1]':'','living_costs[2]':'','living_costs[3]':'','living_costs[4]':''} ...
[英]Data Frames being read in with varying number of columns, how do I dynamically change data types of only columns that are Boolean to String data type?
在我的笔记本中,我有正在读取的数据框,每次运行笔记本时都会有可变数量的列。 如何仅将 Boolean 数据类型的列的数据类型动态更改为字符串数据类型? 这是我面临的一个问题,所以我发布答案以防万一这对其他人有帮助。 数据框的名称是“df”。 在这里,我们将传入数据集中的每一列(Boolean 数据 ...
[英]Reading JSON using Pyspark returns data frame full of nulls
我想使用 pyspark 读取的文件中有以下 json 结构 [{'id': '34556', 'InsuranceProvider': 'sdcsdf', 'Type': {'Client': {'PaidIn': {'Insuranceid': '442211', 'Insur ...
[英]Loading table in Databricks job converts all columns to lowercase
我有一个 SQL 视图作为表存储在 Databricks 中,所有列都大写。 当我使用 spark.table(<<table_name>>) 在 Databricks 作业中加载表时,所有列都转换为小写,这导致我的代码崩溃。 但是,当我在一个简单的笔记本中以相同的方式加载表 ...
[英]JSON Fomatting in Pyspark
我有一个 json 以以下格式存储为字符串 我有近 7000 万个这种格式的 json 字符串。 我想使用 python pandas 中的 json_normalize,但由于记录数,我正在考虑使用 pyspark。 有人可以指导在 Glue 表中处理和存储这些 json 字符串的最佳方法是什 ...
[英]Unable to create a new column from a list using spark concat method?
我有以下数据框,我试图通过连接列表中的名称来创建一个新列 但上面返回相同的结果 我怀疑这可能是由于 DF 中列名中的空格所致。 所以我用 trim 删除了列名中的所有空格,但没有成功。 它返回相同的结果对此有什么解决办法吗? ...
[英]How to flatten nested struct using PySpark?
如何使用 PySpark 展平嵌套结构? 链接到数据集https://drive.google.com/file/d/1-xOpd2B7MDgS1t4ekfipHSerIm6JMz9e/view?usp=sharing 提前致谢。 ...
[英]parse pyspark dataframe column of varying keys into new column for one key's values
我有一个输入 pyspark 数据框 df。 数据框 df 有一列“field1”,其中的值是字典。 字典并不都有相同的键。 我想将“b”键解析为一个新字段“newcol”。 更复杂的事情 field1 是数据类型字符串。 我已经尝试了下面的代码,但我得到了下面的错误。 有没有人建议如何做到这一点? ...
[英]how to sequentially iterate rows in Pyspark Dataframe
我有一个像这样的 Spark DataFrame: 我想将一行的自然列与具有相同Account和value的其他行进行比较,我应该向前看,并添加名为Repeated的新列。 如果性质从1变为0 ,则新列对两行都成立,反之亦然。 例如,上面的数据框应如下所示: 我的解决方案是我必须在Accou ...
[英]How to create dataframe with struct column in PySpark without specifying a schema?
我正在学习 PySpark,能够快速创建示例数据框以尝试 PySpark API 的功能很方便。 以下代码(其中spark是 spark 会话): import pyspark.sql.types as T df = [{'id': 1, 'data': {'x': 'mplah', 'y': [ ...
[英]pyspark json to dataframe schema
我有棘手的 json,我想将其加载到 dataframe 中,并且需要有关如何定义模式的帮助 需要 dataframe output ID 父亲孩子们 1个约翰 [“杰克”、“简”、“吉姆”] 2个克里斯 [“法案”,“将”] ...
[英]i want to obtain max value of a column depending on two other columns and for the forth column the value of the most repeated number
我有这个 dataframe 我这样做是为了获得 a 和 b 夫妇的最大值 c 但现在我需要得到 d 的值应该是 我试图在 df1 和 df2 之间进行内部连接,但这没有用: 我是 pyspark 的初学者,所以我需要一点帮助来解决这个问题 ...
[英]compare two dataframes and display the data that are different
我有两个数据框,我想比较两列的值并显示不同的值,例如:比较此表 1 一种乙 C 丁 O1 2个 E1 2个 O1 3个 E1 1个 O1 2个 E1 0 O1 5个 E2 2个 O1 2个 E2 3个 O1 2个 E2 2个 O1 5个 E2 1个氧气 8个 E1 2 ...
[英]how to change a column type in array struct by pyspark
如何通过 pyspark 更改数组结构中的列类型,例如,我想将userid从 int 更改为 long ...