如何在R中找到dataframe的字符串行的最大值和最小值？

Question

For each row of my data, I want to get the min and max values which are originally stored as a character.对于我的每一行数据，我想获取最初存储为字符的最小值和最大值。 For example, consider the following data:例如，考虑以下数据：

df <- data.frame(id=c(1:3),
                 yr=c("2000,2009,1999,2022","2019,2018,2006,2007","1998,2012,2000,2020"))

Output needed: Output 需要：

id                   yr  min_yr    max_yr
1   2000,2009,1999,2022    1999      2022
2   2019,2018,2006,2007    2006      2019
3   1998,2012,2000,2020    1998      2020

Answer 1

This will work also for years like 860 , 1543 , 2023 , ...这也适用于860 、 1543 、 2023等年份，...

df[c("min_yr", "max_yr")] <-
   t(sapply(strsplit(df$yr, ","), \(x) range(as.numeric(x))))

df
#  id                  yr min_yr max_yr
#1  1 2000,2009,1999,2022   1999   2022
#2  2 2019,2018,2006,2007   2006   2019
#3  3 1998,2012,2000,2020   1998   2020

Answer 2

Here's one-liner in base R that also works on any number.这是基数 R 中的一行代码，它也适用于任何数字。

df[c('min_yr', 'max_yr')] <- t(sapply(df$yr, \(x) range(scan(text=x, sep = ','))))

Resulting in导致

df
#>   id                  yr min_yr max_yr
#> 1  1 2000,2009,1999,2022   1999   2022
#> 2  2 2019,2018,2006,2007   2006   2019
#> 3  3 1998,2012,2000,2020   1998   2020

Answer 3

df$min_yr=as.numeric(unlist(lapply(strsplit(df$yr,","),min)))
df$max_yr=as.numeric(unlist(lapply(strsplit(df$yr,","),max)))

  id                  yr min_yr max_yr
1  1 2000,2009,1999,2022   1999   2022
2  2 2019,2018,2006,2007   2006   2019
3  3 1998,2012,2000,2020   1998   2020

Answer 4

using dplyr and purrr :使用dplyr和purrr ：

library(dplyr)
library(purrr)
mutate(df, strsplit(yr, ",") |>
           map(as.numeric) |>
           map(range) |>
           map_dfr(setNames, c("min", "max")))

##>   id                  yr  min  max
##> 1  1 2000,2009,1999,2022 1999 2022
##> 2  2 2019,2018,2006,2007 2006 2019
##> 3  3 1998,2012,2000,2020 1998 2020

Answer 5

library(stringr) library(dplyr) df %>% rowwise() %>% mutate(min_yr = min(as.numeric(str_split_1(yr, ","))), max_yr = max(as.numeric(str_split_1(yr, ",")))) id yr min_yr max_yr <int> <chr> <dbl> <dbl> 1 1 2000,2009,1999,2022 1999 2022 2 2 2019,2018,2006,2007 2006 2019 3 3 1998,2012,2000,2020 1998 2020

Answer 6

Using pmin/pmax from base R - read the yr column with read.csv to create a data.frame and then use pmin/pmax使用base R中的pmin/pmax - 使用 read.csv 读取 yr 列以创建read.csv ，然后使用 pmin/pmax

d1 <- read.csv(text = df$yr, header = FALSE)
df$min_yr <- do.call(pmin, d1)
df$max_yr <- do.call(pmax, d1)

-output -输出

> df
  id                  yr min_yr max_yr
1  1 2000,2009,1999,2022   1999   2022
2  2 2019,2018,2006,2007   2006   2019
3  3 1998,2012,2000,2020   1998   2020

如何在R中找到dataframe的字符串行的最大值和最小值？

问题描述

6 个解决方案

解决方案1
6 已采纳 2023-01-12 13:25:43

解决方案2
5 2023-01-12 13:29:04

解决方案3
3 2023-01-12 13:21:50

解决方案4
3 2023-01-12 13:25:22

解决方案5
2 2023-01-12 13:43:54

解决方案6
2 2023-01-12 16:37:48

如何在R中找到dataframe的字符串行的最大值和最小值？

问题描述

6 个解决方案

解决方案1 6 已采纳 2023-01-12 13:25:43

解决方案2 5 2023-01-12 13:29:04

解决方案3 3 2023-01-12 13:21:50

解决方案4 3 2023-01-12 13:25:22

解决方案5 2 2023-01-12 13:43:54

解决方案6 2 2023-01-12 16:37:48

解决方案1
6 已采纳 2023-01-12 13:25:43

解决方案2
5 2023-01-12 13:29:04

解决方案3
3 2023-01-12 13:21:50

解决方案4
3 2023-01-12 13:25:22

解决方案5
2 2023-01-12 13:43:54

解决方案6
2 2023-01-12 16:37:48