
[英]How to remove the 0s in the id_sum column by a sequence from 1 to n in pyspark dataframe
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代码生成列 id_frecuence: 我的 output 是: ...
[英]How to remove the 0s in the id_sum column by a sequence from 1 to n in pyspark dataframe
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代码生成列 id_frecuence: 我的 output 是: ...
[英]SQL query/UDF across columns in GROUP by
在我的工作中,我在 bigquery 中使用与此类似的表: 我们要获取此数据并执行以下转换: 对于每个唯一的 id(例如 a、b、c),我们希望将 x 和 y 值聚合到一个数组中。 例如,对于 id a,我们将得到数组 [1,2,3,2,3,4]。 基本上,output 表应该如下所示: 我不确定 ...
[英]Warning regarding NAs while transforming data in the column with R
有一个包含许多列的数据集data ,但现在我对商店年龄的列感兴趣。 该列中的值是“-”、NA 或不同的数字(字符数据类型)。 有些值而不是年龄(例如:2、5、10)是开业年份(例如:2015、2018 等),所以这些情况我应该转换为商店的年龄(2022 年)。 我试过这样的 R 代码: 重写的数值看 ...
[英]How to convert decimal date type column to time data type in power query/power BI?
该列由十进制格式的分钟组成。 这将被转换为时间格式。 例:第 5 条记录为 61 分 6 秒。 这将显示为 1 小时 1 分 6 秒 - (01:01:06)。 如何在 power query editor/power BI 中解决这个问题? ...
[英]Importing one to many relations in a Join transformation Azure Synapse
我有两个数据源加载到 Azure Synapse 中。 两个原始数据源都包含一个“Apple”表。 我将它们合并到我的 Enriched 数据存储中的单个“Apple”表中。 SELECT * FROM datasource1.apple JOIN datasource2.apple on dat ...
[英]Compare 2 list columns in pandas and find the diff
DataFrame df = pd.DataFrame({ 'Id': [1,1,1,1,2,2,3,4,4,4], 'Col_1':['AD11','BZ23','CQ45','DL36','LM34','MM23','DL35','AD11','BP23','CQ45'], 'Col_2': ...
[英]Python group by aggregation and function to filter
我有一个数据集,我试图通过 2 个值过滤用户可以 select 并显示所选类别的平均值、中值和 n。 我有一个 function 用于计算每个 ID 的聚合值,但我试图计算所选组的值而不是单个 ID。 我需要一些帮助将 function 从 ID 转换为组下面是一个示例数据集 df1 ID 测试团 ...
[英]How to handle data over time without a date column?
我有一个数据集,其中有很多列列出了多年的值,例如: 国家 2020 排名 X 2020年排名Y 2021 等级 X 欧盟 1 2 3 美国 2 3 4 等等。每年每个国家大约有 6 个值,并且有 4 年的数据,大约 160 行。 我的问题是当尝试显示随时间推移的数据时,没有正常工作的“ ...
[英]How can I make this repetitive column data into proper data?
如何在 R 中将此表从宽格式更改为长格式? 我尝试了几个不同的库,但似乎无法获得它。 我尝试使用reshape(df5, idvar=" ", timevar='', direction="")但无法修复我的数据。 我想要这些数据—— 如果我使用reshape得到答案,那就太好了。 ...
[英]Add New Columns to One Dataframe Based on Values and Functions in Another With Conditions in R
对你来说是一个棘手的问题。 我有两个数据框,一个是奇数比率列表(跳过第一个,因为它是我们的预测器)。 见下文: 变量的名称赔率变量2 0.87 变量 3 1.42 变量4 2.10 变量5 0.56 变量6 1.01 第二个是主题列表,变量作为列,它是否以二进制标志(0/1)的形式出现。 ...
[英]Improve reusability of my data transformation functions
我目前已经通过其 roleId 对我的 api 数据进行了代码转换。 但是,我需要显示另一个视图,该视图将根据用户所在的 projectId 对数据进行分组。 我可以简单地复制和粘贴并创建另一个用于 projectIds 数据转换的方法,但是,我觉得我的方法可能很混乱并且不容易重用。 所以我想问是否 ...
[英]Add a unique key to every parent and children
我刚刚将我的 API 调用数据转换为某种格式,以适应 ant 设计表树数据。 https://ant.design/components/table/#components-table-demo-tree-data 但是,现在我面临另一个问题。 我需要为每个父母和孩子添加一个“键”,以便树数据表能 ...
[英]Data transform if projectId match children and projectId grouped
我需要将所有 projectId 组合在一起,如果 projectId 相同,则孩子应该在当前项目中。 请参阅下图了解预期的最终结果。 感谢是否有人可以帮助我。 我正在尝试在构建应用程序功能的同时学习 go。 谢谢你。 当前 Json 格式: 预期 Json 格式: ...
[英]SQL - Filtering within first_value (or window function in general)
我有一些日志数据跟踪发票处理,如下例所示: 对于每张发票,我需要显示每个活动的第一个和最后一个发生的时间。 例如,发票 A 有两次数量变化,我对那个日期感兴趣。 我需要在汇总表中显示所有内容,每张发票有 1 行,如下所示: 我已经探索了几种不同的选择,但到目前为止没有任何效果。 最明显的一个是连接 ...
[英]Deep Neural Network in Python with 3 inputs and 3 outputs
我想在 Python(最好是 PyTorch,但 TensorFlow 也是可能的)中实现一个深度神经网络,它可以预测下一个位置和到达该位置的时间。 对于原始数据,我有一个 csv 文件,其中包含三个值的序列:纬度、经度和时间: 这样的行数约为 100 000。所以,这是我的问题。 我应该如何拆分数 ...
[英]Filtering data in python pandas based on window of unique rows and boolean logic
我将欣赏一个优雅的解决方案,用于根据唯一标识符根据 boolean 条件过滤行。 我的数据集是一种宽格式和长格式的混合体。 大约有 100 个变量,但其中三个是有问题的示例: idkey 、 method和value 。 总之,有多个行的实例具有相同的idkey但不同的method或value 。 ...
[英]Azure Data Factory - API extraction and New column
我需要从 API 中提取数据到 Azure,API 输出是这样的: 目标是使用在输出的最后一行中找到的值创建一个名为“Value”的新对象并写入文件。 预期输出: ID 来源索引 值名称 价值 0 ...
[英]Method to quantize a range of values to keep precision when signficant outliers are present in the data
您能否告诉我在以下情况下是否有合适的量化方法(最好在python中实现)? 有一个输入范围,其中大多数值都在平均值的 +-2 标准差内,同时存在一些巨大的异常值。 例如 [1, 2, 3, 4, 5, 1000] 将其量化到例如 0-255 的输出范围将导致精度损失,因为巨大的异常值 1000(1 ...
[英]How to check conditions for paired variables
我有一个数据集,其中包含已咨询或未由 7 个变量(FITM1-7,我将仅展示 2,FITM1,FITM2)表示的患者记录,这些变量具有特定代码(我提供了代码列表,msp_codes)。 我的条件是检查每条记录是否出现代码,然后检查发生咨询的相关日期(SERVDT1-7)是否在入院日期(ADMIT_ ...