[英]SAS proc SQL and Inner join - what are alternative methods
我想做的是找到以下代码的替代方法:
PROC SQL;
CREATE TABLE XXXX AS
SELECT DISTINCT t2.WC, t2.CWC
FROM YYYY t1
INNER JOIN ZZZZ t2 ON (t1.MC = t2.WC)
;
QUIT;
有人可以帮忙使用哈希或其他任何方法做同样的事情吗?
我有以下表格:
data have01;
infile cards truncover expandtabs;
input MC $ LC $ MCC $ MCN $ TLC $ DD $ ODS_TimeStamp ODS_LUpd zTPl $ PuD $;
cards;
1853 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
1856 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
1869 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
2024 DV16 1 Vetu SM3 2008-01-31 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 47 .
2025 DV16 1 Vetu SM3 2008-01-31 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 47 .
run;
您可能需要格式化上表中的日期列。
data have02;
infile cards truncover expandtabs;
input WPMVId ToSTimeStamp TId ASN WC $ CWC $ TSide $ MNo Y X;
cards;
1 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 1 -82140 2468
2 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 2 -81940 2466
3 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 3 -81739 2463
4 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 4 -81539 2459
5 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 5 -81339 2456
6 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 6 -81139 2453
run;
您可能需要格式化上表中的日期列。
请帮助我使用上面的SQL代码的替代方法,特别是当我遇到上述表2几乎有8亿行数据并且要花费大量时间来运行上述SQL查询时,请帮我。
您可以使用哈希对象。 如果您有一个很大的数据集,并且不想在合并之前对其进行排序,那么这特别好。
假设您必须在工作库中设置数据集Aset和Bset,并且要将它们合并到ID变量IDVar1和IDVar2(它们唯一地标识两个数据集中的每个条目,并且都为两个数据集定义)。 所有其他变量名称在两个数据集中有所不同。 结果数据集将被称为“合并”。 这是一个最小的示例:
data Aset;
input idvar1 idvar2 var1inA var2inA;
datalines;
1 48 5 100
1 8 6 165
2 5 7 102
2 965 8 136
3 105 9 145
4 105 10 456
3 85 12 454
;
run;
data Bset;
input idvar1 idvar2 var1inB var2inB;
datalines;
2 48 5 100
2 965 6 165
2 5 7 102
1 965 8 136
5 105 9 145
3 105 10 456
3 85 12 454
;
run;
data merged (drop=retval);
if 0 then set Aset;
if _N_=1 then do;
declare hash hh(dataset:'Aset',ordered:'A');
hh.definekey('IDVar1','IDVar2');
hh.definedata(all:'Y');
hh.definedone();
end;
do while (not done);
set Bset end=done;
retval = hh.find();
if (retval=0) then output;
end;
stop;
run;
消耗臭氧层物质清单:
Obs. idvar1 idvar2 var1inA var2inA var1inB var2inB
1 2 965 8 136 6 165
2 2 5 7 102 7 102
3 3 105 9 145 10 456
4 3 85 12 454 12 454
以下代码适用于提供的数据示例。 我更改了一些格式以适合值并添加了一些length语句。
data have01;
infile cards truncover expandtabs;
length ODS_TimeStamp $23. ODS_LUpd $23. DD $10.;
input MC LC $ MCC MCN $ TLC $ DD $ ODS_TimeStamp $ ODS_LUpd $ zTPl PuD $;
cards;
1853 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
1856 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
1869 DR14 1 Vetu SM3 . 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 0 .
2024 DV16 1 Vetu SM3 2008-01-31 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 47 .
2025 DV16 1 Vetu SM3 2008-01-31 24SEP2013:10:06:53.580 20JUL2016:12:55:39.240 47 .
run;
data have02;
infile cards truncover expandtabs;
length ToSTimeStamp $23.;
input WPMVId ToSTimeStamp $ TId ASN WC CWC $ TSide $ MNo Y X;
cards;
1 21AUG2012:17:57:39.000 20949 1 2024 HPUS230 R 1 -82140 2468
2 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 2 -81940 2466
3 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 3 -81739 2463
4 21AUG2012:17:57:39.000 20949 1 2024 HPUS230 R 4 -81539 2459
5 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 5 -81339 2456
6 21AUG2012:17:57:39.000 20949 1 7604 HPUS230 R 6 -81139 2453
run;
data merged (drop=retval);
if 0 then set have01;
if _N_=1 then do;
declare hash hh(dataset:'have01',ordered:'A');
hh.definekey('MC');
hh.definedata(all:'Y');
hh.definedone();
end;
do while (not done);
set have02 (rename=(WC=MC)) end=done;
retval = hh.find();
if (retval=0) then output;
end;
stop;
run;
还有什么比这个答案更好的了...
data work.xx;
merge
work.yy (in=a keep=mc rename=(mc=wc))
work.zz (in=b keep=wc cwc)
;
by wc;
if a and b;
run;
proc sort data=work.xx nodupkey;
by wc cwc;
run;
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.