繁体   English   中英

R:提取由数字后跟模式(或空格和模式)组成的子字符串,而不提取其他数字

[英]R: Extracting a substring consisting of a number followed by a pattern (or a space and a pattern) without extracting other numbers

我正在从数据集中提取容器中的药片(或胶囊)的数量。 金额和形式在描述列中的字符串中,其中包含很多其他信息。 我想提取数量和指定它是什么形式的单词(平板电脑或标签或胶囊等)。 到目前为止,我已经尝试了以下方法。

testdescript = c("CARBAMAZEPINE EXTENDED RELEASE TABLETS USP400 MG DRG LIC NO TLCT17HZ2019201757131 DT3042020 100 TABS", "100MGCARBAMAZEPINECARBATOL 100 TABLET CARBAM", "TEGRITAL CR400 x10TAB CARBAMAZEPINE10", "TEGRITAL200 CARBAMAZEPINE200 100 TAB","CARBAMAZEPINE300 MG X120 CAPSULES FOR RESEARCH PURPOSE ONLY NCV") 
pattern = c("([0-9/]+[[:space:]])+TABS", " [0-9/]+TABS", "([0-9/]+[[:space:]])+TABLET","[0-9/]+TABLET", "[0-9/]+[[:space:]]+TAB", "[0-9/]+TAB","([0-9/]+[[:space:]])+CAPSULES","[0-9/]+CAPSULES")
str_extract(testdescript,paste0(pattern, collapse = '|'))
##which gives
[1] "3042020 100 TABS" "200 TABLET"       "10TAB"            "100 TAB"          "120 CAPSULES"  

最后 4 个结果是所需的结果,因此只提取了药片数量和指定药片的单词。 第一个结果给出了第一个 (3042020) 不需要的 2 个数字。 预期的结果是 100 TABS。 我还为该模式尝试了以下代码,它给出了类似的结果,但在第四个结果( 200 100 TAB)中有一个额外的错误。

pattern2 =c("([0-9/]|([0-9/]+[[:space:]]))+TABS", "([0-9/]|([0-9/]+[[:space:]]))+TABLET","([0-9/]|([0-9/]+[[:space:]]))+TAB", "([0-9/]|([0-9/]+[[:space:]]))+CAPSULES")
str_extract(testdescript,paste0(pattern2, collapse = '|'))
[1] "3042020 100 TABS" "100 TABLET"       "10TAB"            "200 100 TAB"      "120 CAPSULES"   

我的问题是:如何获取可能包含空格的数字和表单文本而不阅读不需要的其他数字?

提前致谢!

我认为您正在寻找的模式如下:

str_extract(string = testdescript, pattern = "[0-9]+ ?(TABS?|TABLETS?|CAPSULES?)")

为了解释上面的模式,它正在寻找一系列数字,后面可以跟一个空格,这就是为什么有一个 ? 空间之后。 在那之后,我正在寻找单词标签、片剂和胶囊,再次测试它们是否有 S。

这对您的数据集来说太简单了吗?

str_extract(testdescript, "(?<=[[:space:]]|x|X)[0-9]+[[:space:]]?(TAB|TABS|TABLET|CAPSULES)")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM