标签[apache-spark]

Apache Spark是用Scala编写的开源分布式数据处理引擎,为用户提供了统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图处理有关。

0
0回复
06

使用databricks-connect运行Scala模块

I've tried to follow the instructions here to set up databricks-connect with IntelliJ.我尝试按照此处的说明使用 IntelliJ 设置 databricks-connect。 My understanding is
0
0回复
11

SparkDataframe中带有UDF的PythonException

Hello everyone!大家好! I wrote two functions to clean up the text in my dataset.我编写了两个函数来清理数据集中的文本。 The structure of the dataset is as follows:数据集的结构如下:|
0
1回复
18

如何在Scala类的情况下转换日期列格式?

I am using Scala spark.I have two similar CSV files with 10 columns.One difference is with the Date column format.我正在使用 Scala spark。我有两个类似的 CSV 文件,有 1
1
1回复
20

较新的依赖项中的Maven不同包名

The project I am working on produces a jar that I deploy on azure so Spark runs the job.我正在处理的项目生成一个 jar,我将其部署在 azure 上,以便 Spark 运行该作业。 It is using an
0
0回复
33

无法在独立模式下运行Spark程序(客户端和集群模式中的错误)

I have a single Ubuntu server where I ran a Master and a Slave (one executor) and they show up on 8080 UI.我有一个 Ubuntu 服务器,我在其中运行了一个主服务器和一个从服务器(一个执行程序)
0
0回复
04

如何使用sparklyr热编码/生成虚拟列

I know there are number of questions similar to this here but 1) most of the solutions rely on deprecated functions like ml_create_dummy_variables and
0
0回复
19

为什么我的行数在BroadCastHashJoin后爆炸

somehow no.of output rows are exploding after BroadCast Hash Join.不知何故,在广播哈希加入后,输出行数会爆炸。 right side table has unique row on join column.右侧表在连接列上有唯一的行。
1
1回复
30

Spark中的UDF问题-TypeError:'Column'对象不可调用

Hello everyone!大家好! I have a dataframe with 2510765 rows containing application reviews with relative score and having the following structure:我有一个包含2
0
0回复
17

如何处理Kubernetes上Spark-submit的错误代码101

I am trying to run the following code to submit a spark application to a kubernetes' cluster:我正在尝试运行以下代码以将 spark 应用程序提交到 kubernetes 的集群: /opt/spark/bi
0
0回复
11

如何使用基于tensorflow/pytorch的预训练深度学习模型在Python中编写自定义火花变换器?

I am coding a transformer in python, so that I can use .transform() method individually or inside a pipeline.我正在用 python 编码一个转换器,以便我可以单独或在管道内使用 .trans
0
1回复
14

YARN运行应用程序页面中的“AllocatedCPUVCores”和SparkUIExecutors选项卡中的“Cores”存在差异

I ran spark application on Spark 2.3 with spark.executor.cores as 25我在 Spark 2.3 上运行 spark 应用程序,spark.executor.cores 为 25 "Allocated CPU VCores" in YA
4
2回复
49

如何使用approx_count_distinct计算SparkDataFrame中两列的不同组合?

I have a Spark DataFrame ( sdf ) where each row shows an IP visiting a URL.我有一个 Spark DataFrame ( sdf ),其中每一行都显示一个访问 URL 的 IP。 I want to count distinc
0
0回复
15

Python3forHadoop不支持子列表参数

I am have problem fixing this problem for (lambda (x, (y, z)) : [(dest, z/len(y))我在为 (lambda (x, (y, z)) 解决这个问题时遇到问题:[(dest, z/len(y)) Error message S
1
2回复
32

SparkDataFrame:将144列转换为行

Env: Spark 2.4.0;环境:Spark 2.4.0; Scala斯卡拉I have created DF from CSV that has with 144 columns.我从具有 144 列的 CSV 创建了 DF。 Is there anyway to change all co
0
0回复
25

使用Spark将json数组更改为数据帧

How to change this json array from this如何从此更改此 json 数组 to this dataframe like this using Spark:像这样使用 Spark 到这个数据框:
1
3回复
35

使用结构创建数组时忽略空列

I added a column to a dataframe which is an array of other columns.我向数据框添加了一列,该列是其他列的数组。 How can I ignore the null values when I construct the column
0
1回复
18

docker-compose.ymlspark/hadoop/hive三个数据节点

This docker-compose.yml with one datanode seems to work ok:该docker-compose.yml一个datanode似乎工作确定:version: "3"services: namenode: image: bde2020/hado
0
1回复
23

多个spark任务可以用单核运行吗?

I ran spark code with one executor and one VCore.我用一个执行器和一个 VCore 运行 Spark 代码。 The Dataframe was repartitioned into 25 partitions. Dataframe 被重新分区为 25
0
1回复
41

在sparklyr中的spark数据帧的所有列上应用ifelsemutate函数

How can one apply an if else mutate function on all columns of a spark dataframe in sparklyr?如何在 sparklyr 中的 spark 数据帧的所有列上应用 if else mutate 函数? For e
0
2回复
45

JavaSparkML-SparkML3.1+问题的预测/预测

Small question regarding prediction/forecast using Spark ML 3.1+ please.关于使用 Spark ML 3.1+ 进行预测/预测的小问题。 I have a dataset, very simple, of timestamps f

1 2 3 4 5 6 7 8 9 10 下一页