cost 195 ms
使用 PySpark 根据年龄生成子样本 - Generate subsample based on age using PySpark

我想根据年龄收集样本,条件是失败状态。 我对 3 天前的序列号感兴趣。 但是,我不需要少于 3 天的健康序列号,但我想包括所有少于 3 天或刚好 3 天的失败序列号。 例如,C 在 1 月 3 日失败,因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...

如何在PySpark中创建这个function? - How to create this function in PySpark?

我有一个大型数据框,包含 400 多列和 14000 多条记录,我需要对其进行清理。 我已经定义了一个 python 代码来执行此操作,但是由于我的数据集的大小,我需要使用 PySpark 来清理它。 但是,我对 PySpark 非常陌生,不知道如何在 PySpark 中创建 python fun ...

pandas_udf 与 pd.Series 和其他 object 为 arguments - pandas_udf with pd.Series and other object as arguments

我在创建 Pandas UDF 时遇到问题,该 UDF 基于底层 Spark Dataframe 同一行中的值对 pd 系列执行计算。 但是,Spark API 上的 Pandas 似乎不支持最直接的解决方案: 一个非常简单的例子如下 在 udf 定义行抛出以下异常 我是否以错误的方式解决了这个问 ...

如何用此文本中命名的列中包含的值替换列中的文本 - How to replace text in column by the value contained in the columns named in this text

在 pyspark 中,我试图用列中存在的值替换列中的多个文本值,这些值存在于计算列(公式)中。 所以要清楚,这是一个例子: 输入: Output 需要: 在计算列中,默认值为公式。 它可以像上面提供的一样简单,也可以类似于“2*(param_8-param_4)/param_2-(param_3 ...

根据索引删除 PySpark 中的行 - Dropping rows in PySpark based on indexes

我正在使用看起来与此类似的 PySpark Pandas DataFrame: 总数据集相当大(大约 55 行),所以这个例子只是部分的。 我试图根据两个参数删除行: 该 col2 是 Windows 服务器的路径并且具有文件夹“a” col3 等于不等于 3 最终结果应该是这样的: 注意:请注意 ...

如何减少大数据 PySpark 脚本的运行时间? - How do I reduce the run-time for Big Data PySpark scripts?

我目前正在 Databricks 中开展一个项目,单个表中大约有 6 GiB 的数据,因此您可以想象,在这样的表上运行时是非常昂贵的。 我会称自己为经验丰富的编码员,但对于大数据我还是新鲜的。 在处理较小的数据集时,我会经常测试我的部分代码以查看它是否正常运行,例如: 然而,对于这样的大数据,过滤 ...

如果数据匹配并插入新数据,则根据另一个数据框删除行 - Delete rows on the basis of another data frame if the data matched and insert new data

我有两个文件,一个是 file1.csv,另一个是 file2.csv 我已经将 file1 数据放在一个 dataframe 中,当第二个文件 file2.csv 到达时,我必须以这样的方式编写代码,如果第二个文件数据匹配在基于年份和月份列的第一个文件数据中,然后从文件 1 dataframe 中 ...

有没有办法通过 lambda function 在 pyspark Z3A43B4F883225D94022CEFA9Z - Is there a way to group by lambda function in pyspark pandas

我最初使用下面的代码来处理标准的 pandas df。 一旦数据增长,切换到 pyspark pandas df。 我一直无法使这个 groupby 在 pyspark pandas df 上工作。 我也尝试使用 spark 函数在 spark df 上复制,但我的知识有限,所以我没有运气。 任何 ...

PicklingError:无法序列化 object(仅适用于大型数据集) - PicklingError: Could not serialize object (happens only for large datasets)

背景:我在databricks jupyter笔记本中使用pyspark.pandas。 我测试过的内容:如果出现以下情况,我不会收到任何错误: 我在 300 行数据上运行我的代码。 我只是将数据集复制了 2 次(pd.concat 为 600 行)。 如果出现以下情况,我会收到错误: 我只是将数 ...

Function 获取火花列表 dataframe 并转换为 pandas 然后 Z628CB5675FF524F3EZ19BAA7FAA - Function to take a list of spark dataframe and convert to pandas then csv

这是我写的,但我实际上希望 function 获取此列表并将每个 df 转换为 pandas df 然后将其转换为 csv 列表中的特定目录并将其保存到特定目录中名字的顺序。 有没有办法写出这样的 function? PS D:/data 只是一个虚构的路径,用于解释。 ...

如何过滤掉pyspark中条件多的行? - How to filter out rows with lots of conditions in pyspark?

假设这些是我的数据: 问题是有时,有多个 Product_Number 而它应该是唯一的。 我要做的是不止一次地从 dataframe 中的那些中取出条件是新的而不触及 rest 的那些。 这得到了结果: 我试图做的是首先查看我有多少不同的产品编号: 然后找出出现次数最多的产品编号,并将它们放在一 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM