我正在尝试修改现有增量表的分区。 我知道如何使用数据帧 API 来做到这一点。我需要使用 SPRAK SQL 来实现类似的事情。有人帮我吗? 当我尝试在命令下运行时 我遇到错误 是否可以在 SPARK SQL 中做同样的事情? ...
我正在尝试修改现有增量表的分区。 我知道如何使用数据帧 API 来做到这一点。我需要使用 SPRAK SQL 来实现类似的事情。有人帮我吗? 当我尝试在命令下运行时 我遇到错误 是否可以在 SPARK SQL 中做同样的事情? ...
我有一个 java 申请。 在 java 应用程序中,我有 spark 上下文。 在 spark 上下文中,我通过执行 sparkSession.newSession() 创建了多个 spark session。 在任何给定的时间点,都会有 4-5 个会话在运行。 将有多个 sql 查询和连接发生在 ...
我尝试在 Visual Studio Code 中配置 Apache Spark PySpark。 我在 VScode 上安装“Spark & Hive Tools”扩展包并添加Python > Auto Complete: Extra Paths on settings.json 文 ...
问题:我运行的 spark 作业用尽了所有节点上的所有内核,但在 Dataproc CPU 监控图中,CPU 使用率最高达到 12% 我有一个包含 2 个节点的虚拟集群。 每个节点都有: 16 GiB memory 16芯我使用以下配置启动 spark session 并运行以下简单代码: 而且 ...
请确保动态分配不会在您监视 YARN UI 时杀死您的容器。 请参阅下面的答案问题:我可以使用每个执行程序的任意数量的核心启动 SparkSession,并且 yarn 仍会报告每个容器仅分配一个核心。 我已经尝试了所有可用的在线解决方案: 这里, 这里等解决办法是: 配置yarn-site.xml ...
我遵循了Apache Spark 中的使用增量表的说明但是当我尝试将表格保存到 lakehouse 时,我收到了以下消息。 尝试读取 fact_sale 表时,在遵循“Lakehouse 教程介绍”时收到类似的错误消息。 我错过了一些权限设置吗? Create database for fabric ...
我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...
我正在使用 Spark3.0.1 我有以下数据 csv: 348702330256514,37495066290,9084849,33946,614677375609919,11-02-2018 0:00:00,GENUINE 348702330256514,37495066290,330148, ...
我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...
我有以下数据: 我想将其转换为 dataframe,如下所示: 我尝试了以下内容: 但我得到: ...
如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...
我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
问题陈述:我有一个 csv 文件,其中包含大约 100 多个字段。我需要对这些字段执行转换并生成新的 80 多个字段,并仅将这些新字段以 parquet 格式写入 s3。 parquet 预定义架构 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在将数据写入 s3 时传递此预定义 ...
出现以下错误- 这是我在 spark 3.3 上运行的查询,带有胶水目录并保存到 s3。 冰山版本是1.1.0—— 但是当我尝试在不分区的情况下保存数据时,它没有任何问题 - 我该如何解决? ...
我想用scala和spark来实现Graph算法GraphSAGE,那怎么办呢? 有没有源代码? 我想获取我的问题的代码 ...
我试图在几个带有几何图形的表上运行一个简单的相交并得到这个错误。 我的脚本。 这是表 A。它有几百万行。 结果。 这是表 B。它只有 1 行。 什么节目给我。 这个错误是怎么回事? 我如何解决它? ...
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代码生成列 id_frecuence: 我的 output 是: ...
我在查询执行计划中看到名为DataFilter的东西: 有一个分区过滤器:[] 推送过滤器:[IsNotNull(product_id)] 数据过滤器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,这里显示的Data ...