繁体   English   中英

基于一个列模式的 SAS/SQL 连接匹配另一列

[英]SAS/SQL join based on one column pattern matches another column

我有 2 个数据集需要在 id 字段上匹配:

数据1:

id
---------
00123abc5

数据2:

id
---
23a

我需要在id列上合并(SQL 样式inner join )这两个数据集,而不是data1.id = data2.id 我想要的是data1.id contains data2.id

所以我想在所有行id的第一个数据集字符串包含id第二个数据集的字符串。

在 SQL 中,使用LIKE运算符:

SELECT d1.id
FROM data1 d1 
INNER JOIN data2 d2 ON d1.id LIKE CONCAT('%', d2.id, '%')

正如 TheMouseMaster 所评论的那样,如果在同一字段中碰巧找到多个 id,则此技术可能会生成重复的输出行。 您可以使用DISTINCT来消除重复项:

SELECT DISTINCT d1.id
FROM data1 d1 
INNER JOIN data2 d2 ON d1.id LIKE CONCAT('%', d2.id, '%')

您可以使用索引功能

data have;
input id $9.;
datalines;
00123abc5
00543abc5
;
data have1;
input id $ col1;
datalines;
23a 22
43a 72
73a 82
;

  proc sql;
   create table want as 
  select a.id, col1
  from have a
  inner join
  have1 b
 on index(a.id, trim(b.id)) gt 0;

如果您只想要一个表中的行,请使用EXISTS

select d1.id
from data1 d1
where exists (select 1 from data2 d2 where d1.id like concat('%', d2.id, '%');

实际上,在 SAS 中,我会使用标准的连接运算符:

select d1.id
from data1 d1
where exists (select 1 from data2 d2 where d1.id like '%' || d2.id || '%';

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM