[英]SQL/SAS equivalent code in Microsoft-r
我想在Rev R / Microsoft-r中转换我的Proc SQL / SAS代码之一
这是我的示例代码
proc sql;
create table GENDER_YEAR as
select YEAR,GENDER,count(distinct CARD_NO) as CM_COUNT,sum(SPEND) as TOTAL_SPEND, sum(case when SPEND GT 0 then 1 else 0 end) as NO_OF_TRANS
from ABC group by YEAR,GENDER;
quit;
我正在尝试在Rev R中的以下代码
library("RevoPemaR")
byGroupPemaObj <- PemaByGroup()
GENDER_cv_grouped <- pemaCompute(pemaObj = byGroupPemaObj, data = Merchant_Trans,groupByVar = "GENDER",computeVars = c("LOCAL_SPEND"),fnList = list(sum = list(FUN = sum, x = NULL)))
它一次只计算事物,但是我需要不同的CARD_NO计数,SPEND的总和以及YEAR和Gender的每个部分的Trans支出为零的行数。
输出应如下所示
YEAR GENDER CM_COUNT TOTAL_SPEND NO_OF_TRANS
YEAR1 M 23 120 119
YEAR1 F 21 110 110
YEAR2 M 20 121 121
YEAR2 F 35 111 109
期待对此有所帮助。
实现此目的的最简单方法是将各列连接成一个列并使用它。 似乎大多数dplyrXdf和RevoPemaR都不支持带有2个变量的group by。
为此,可以在顶部添加一个rxDataStep ,它首先创建此变量,然后对其进行分组。 一些大概的代码是:
library("RevoPemaR")
byGroupPemaObj <- PemaByGroup()
rxDataStep(inData = Merchant_Trans, outFile = Merchant_Trans_Groups,
transform = list(year_gender = paste(YEAR, GENDER,))
GENDER_cv_grouped <- pemaCompute(pemaObj = byGroupPemaObj,
data = Merchant_Trans_Groups, groupByVar = "GENDER",
computeVars = c("LOCAL_SPEND"),
fnList = list(sum = list(FUN = sum, x = NULL)))
请注意,据我所知,总体上有3种在RevR中进行groupBy的方法。 每个人都有其优点和缺点。
rxSplit-这实际上为所需的每个组创建了不同的XDF文件。 可以与splitByFactor
arg一起使用,其中factor指定应创建的组。
RevoPemaR的PemaByGroup-假定每个组的数据都可以存储在RAM中。 这是一个合理的假设。 它还需要按GroupBy列对原始Xdf文件进行排序。 并且它仅支持按1列分组。
dplyrXdf的group_by-这是流行的dplyr程序包的一部分。 它具有许多变量操作方法-因此使用类似dplyr的语法编写rxSplit和rxDataStep的方法也有所不同。 它还仅支持1列进行分组。
目前,这三种方法仅支持单个变量组操作。 因此,它们都需要对数据进行一些预处理才能使用。
这是使用dplyrXdf的简单解决方案。 与数据帧不同, n_distinct()
提供的n_distinct()
摘要函数不适用于xdf文件,因此分两步进行了概述:首先将card_no
作为分组变量,然后计算card_no
的数量。
首先,生成一些示例数据:
library(dplyrXdf) # also loads dplyr
set.seed(12345)
df <- expand.grid(year=2000:2005, gender=c("F", "M")) %>%
group_by(year, gender) %>%
do(data.frame(card_no=sample(20, size=10, replace=TRUE),
spend=rbinom(10, 1, 0.5) * runif(10) * 100))
xdf <- rxDataStep(df, "ndistinct.xdf", overwrite=TRUE)
现在,利用第一个summarise
将从分组变量列表中删除card_no
的事实,两次调用summarise
:
smry <- xdf %>%
mutate(trans=spend > 0) %>%
group_by(year, gender, card_no) %>%
summarise(n=n(), total_spend=sum(spend), no_of_trans=sum(trans)) %>%
summarise(cm_count=n(), total_spend=sum(total_spend), no_of_trans=sum(no_of_trans))
as.data.frame(smry)
#year gender cm_count total_spend no_of_trans
#1 2000 F 10 359.30313 6
#2 2001 F 8 225.89571 3
#3 2002 F 7 332.58365 6
#4 2003 F 5 333.72169 5
#5 2004 F 7 280.90448 5
#6 2005 F 9 254.37680 5
#7 2000 M 8 309.77727 6
#8 2001 M 8 143.70835 2
#9 2002 M 8 269.64968 5
#10 2003 M 8 265.27049 4
#11 2004 M 9 99.73945 3
#12 2005 M 8 178.12686 6
通过在原始数据帧上运行dplyr链,验证这与您得到的结果(模行排序)是否相同:
df %>%
group_by(year, gender) %>%
summarise(cm_count=n_distinct(card_no), total_spend=sum(spend), no_of_trans=sum(spend > 0)) %>%
arrange(gender, year)
#year gender cm_count total_spend no_of_trans
#<int> <fctr> <int> <dbl> <int>
#1 2000 F 10 359.30313 6
#2 2001 F 8 225.89571 3
#3 2002 F 7 332.58365 6
#4 2003 F 5 333.72169 5
#5 2004 F 7 280.90448 5
#6 2005 F 9 254.37680 5
#7 2000 M 8 309.77727 6
#8 2001 M 8 143.70835 2
#9 2002 M 8 269.64968 5
#10 2003 M 8 265.27049 4
#11 2004 M 9 99.73945 3
#12 2005 M 8 178.12686 6
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.