标签[sparkcore] - 堆栈内存溢出

在 Python 中使用 Spark Core 组合来自 JSON 和 CSV 文件的数据 - Combining data from JSON and CSV files using Spark Core in Python

尝试编写一个 Python 脚本，该脚本从 Google Drive 文件中获取一个 JSON 文件和多个 CSV 文件，并仅使用 Spark Core 分析和操作其数据。此代码的 function 是用 JSON 和 CSV 文件中的数据创建元组。这两个文件共享一个共同的信息项，这是每个文件（ ...

检查spark格式是否存在 - check whether is spark format exists or not

语境 Spark reader 有 function format ，用于指定数据源类型，例如JSON ， CSV或第三方com.databricks.spark.redshift 帮助如何查看是否存在第三方格式，我举个例子在本地 spark 中，连接到 redshift 两个可用的开源库 1. c ...

如何使用 log4j2 版本覆盖 log4j 以解决 apache-core_2.12 版本的“SocketServer class 容易反序列化” - How to Override log4j with log4j2 version to resolve "SocketServer class vulnerable to deserialization" for apache-core_2.12 version

如何使用 log4j-core 2.16.0 版本覆盖 log4j 版本 1.2.17 以解决 spark-core_2.12 二进制文件的“SocketServer class 易受反序列化”问题。我试图从 spark-core_2.12 中排除 log4j - 1.2.17，但构建失败并出现 ...

Spark 组件和 Spark 生态系统之间有联系吗？ - Is there a link between Spark Components and the Spark Ecosystem?

我阅读了集群模式概述（链接： https://spark.apache.org/docs/latest/cluster-overview.html ）和我想知道如何将组件映射到驱动程序执行器上Spark 生态系统的组件，例如 Spark 核心、Spark SQL、Spark Streaming、S ...

Spark Driver 没有分配任何工作人员 - Spark Driver does not have any worker allotted

我正在学习 spark 并尝试执行简单的 wordcount 应用程序。我在用具有 1 个主节点和 2 个工作节点的 spark 集群作为独立集群 spark 配置运行主启动脚本是${SPARK_HOME}/sbin/start-master.sh 从启动脚本是${SPARK_HOME}/sb ...

如何使用 spark rdd 获得以下列表？ - how to get this below list using spark rdd?

列表(1,2,3,4..100)==> 列表((1,2),(2,3),(3,4)...(100,101))==>列表(3,5 ,7,....201) scala> x.map(x=>x,x+1).map(x=>x._1+x._2 ) :26: 错误: 方法 map ...

从以下代码如何转换 JavaRDD<integer> 到 DataFrame 或数据集</integer> - From the following code how to convert a JavaRDD<Integer> to DataFrame or DataSet

从上面的代码中，我无法将 JavaRdd (mappartRdd) 转换为 Java Spark 中的 DataFrame。我正在使用以下将 JavaRdd 转换为 DataFrame/DataSet。我为 createDataFrame 尝试了多个选项和不同的重载函数。我面临将其转换为 D ...

如何配置不超过可用核心的分区数？ - How to configure the number of partition not exceeds available cores?

我正在寻找一种方法来根据可用核心的大小在我的应用程序中对我的所有 dataframe 进行分区。如果我的可用核心（执行程序数 * 每个执行程序的核心数）为 20，那么我想将所有 dataframe 重新分区为20.. The only way I can see to repartition m ...

Spark不通过spark-submit查找客户端程序 - Spark not locating client program via spark-submit

我正在尝试将spark作业部署到spark集群中，并且面临着我相信的类加载问题。错误详情如下：目前，我必须将应用程序jar复制到spark jars文件夹，作为部署脚本的一部分来解决此问题。但是我相信spark-submit驱动程序应该智能地完成这个事情，因为每次我想要 ...

在第一批处理后关闭Spark Streaming上下文（尝试检索kafka偏移量） - Closing Spark Streaming Context after first batch (trying to retrieve kafka offsets)

我正在尝试为我的Spark Batch作业检索Kafka偏移量。检索偏移量后，我想关闭流上下文。我尝试将streamlistener添加到流上下文中，并实现onBatchCompleted方法以在作业完成后关闭流，但是我收到异常“无法在侦听器总线线程内停止StreamingCon ...

reduceByKey可以用于多个值吗？ - Can reduceByKey be used for multiple values?

我刚刚开始学习spark和scala，并测试了RDD的一些转换和操作。我发现reduceByKey的用法如下：其中，它采用两个相同值的元组，并使用加法运算将它们组合在一起。现在我的问题是我们是否不能一次累加两个以上的值，或者一次只能将所有具有相同键的值相加？像这样： ...

Apache Spark 地图功能 org.apache.spark.SparkException：任务不可序列化 - Apache Spark map function org.apache.spark.SparkException: Task not serializable

我正在学习 Apache Spark，我正在使用 Java 8 和 Spark Core 2.3.2。我发现当我在 RDD 上使用 map 函数时，它仅在我使用 Lambda 表达式时才有效。所以这有效：但这不会并抛出 org.apache.spark.SparkException: ...

从Spark配置文件读取属性 - Reading properties from spark config file

我正在尝试执行以下代码但是我收到以下错误初始化SparkContext错误。 org.apache.spark.SparkException：必须在配置中设置主URL 我还在IntelliJ中将环境变量设置为spark.master = local。谁能帮我弄清楚我在 ...

Spark配对rdd上的地图变换 - map transformation on Spark paired rdd

我在以下配对的RDD上应用了地图转换：有两个不同的签名。情况1：结果如下：情况2：给出以下错误：错误：简单表达式的非法启动我是否可以知道案例2失败的原因，只是花括号是两个案例之间的区别。提前致谢。 ...

Scala / RDD：如何将元组的值与同一元组中的值列表进行比较 - Scala/RDD : How to compare a value of tuple with a list of values in the same tuple

我有如下数据我想要像这样的输出：可以通过使用scala或spark core来帮助身体吗？ ...

spark.executor.extraClassPath选项以编程方式通过SparkConf进行设置 - spark.executor.extraClassPath option setting programmatically through SparkConf

我的项目罐与EMR上的jar冲突，所以为了解决这个问题我已经通过bootstrap脚本将所有高级jar复制到节点的自定义位置。我已经验证了罐子被复制到所有执行器节点上。它与spark-submit工作正常，我的code引用了所有节点的自定义文件夹中的新jar。同样的事情我想 ...

如何使用自定义属性初始化SparkContext？ - How to initialise SparkContext with custom properties?

我正在使用spark-shell学习Spark。从终端运行spark-shell时，默认情况下已经提供了sparkContext。我想向火花上下文添加一些手动设置（例如setMaster（“ local”）和setAppName（“ KVApp”））。尝试从spark壳执行以 ...

如何计算当月的星期日？ - How can I count the Sundays in the current month?

不久前，我基于arduino制作了一个LED挂钟和日历，现在想对其进行修改以添加一个变量，以自动调整DST的偏移量。我已经每天轮询两次Internet时间服务器以确保准确性，但是时间服务器通常不提供DST信息。更改发生在3月的第2个星期日和11月的第1个星期日。（ https://w ...

火花全文文件会选择部分创建的文件吗？ - Will spark wholetextfiles pick partially created file?

我正在使用Spark WholeTextFiles API从源文件夹读取文件并将其加载到配置单元表。文件从远程服务器到达源文件夹。文件非常大，例如1GB-3GB。文件的SCP需要相当长的时间。如果我启动了spark作业，并且文件正在SCPd到源文件夹，并且进程已完成一半， ...

Spark数据集上的GroupbyKey - GroupbyKey on spark dataset

groupByKey是否会导致整个网络中所有值的混乱，即使它们已经位于分区内，当我们按照sparkSQL中的操作进行分组时，它是否使用groupbykey还是使用aggregateByKey来提高性能？ ...