[英]R efficiency iterating through dataframes
我正在使用大型数据集,可以将其称为data
,并希望创建一个新列,可以基于某些列data$input
将其命名为data$results
。 结果基于某些条件的if / then逻辑,所以我最初的方法是:
for (rows in data) {
data$results <- if(data$results == "1" | data$results== "2") {
trueAnswer
} else {
falseAnswer
}
}
对于大数据帧,此过程可能需要几个小时才能运行。 但是,如果我将数据子集化为仅包含data $ results为1或2的条目,而又不包含true的条目的数据帧,则可以将trueAnswer应用于一个数据帧,将falseAnswer应用于另一个数据帧。 然后,我可以重新绑定数据帧。 这种方法只需要几分钟。
为什么后者使用子集的方法要快得多? 在这种情况下,此过程将应用于许多不同的数据集,因此前一种方法太慢而无法实用。 我只是想了解导致第一种方法效率不足的原因。
始终建议提供一个完全可复制且最少的示例数据示例 。 这样,我们可以根据您的样本数据提供特定的帮助。
在很多情况下,可以避免在R中使用显式的for
循环,而是可以使用优化的矢量化操作。 例如ifelse
是这样的向量化函数。
通常, dplyr
语法如下所示:
library(dplyr);
library(magrittr);
data %>%
mutate(results = ifelse(input == 1 | input == 2, "1 or 2", "Neither 1 nor 2"))
要查看ifelse
是如何矢量化的,请看一下?ifelse
。
值:
一个与“测试”具有相同长度和属性(包括尺寸和“类”)的向量,并且数据值来自“是”或“否”。 [...]
因此,换句话说,如果ifelse
评估100个条件,则返回对象的长度为100。
这可能导致以下可能令人惊讶/意外的结果:
ifelse(c(TRUE), c(100, 200), c(300, 400))
#[1] 100
返回对象是c(100, 200)
元素1,因为逻辑条件的长度为1。
ifelse(c(TRUE, TRUE, TRUE), c(100, 200), c(300, 400))
#[1] 100 200 100
返回对象的长度为3,因为逻辑条件的长度为3; 由于c(100, 200)
只有两个元素,因此R需要回收条目。
R效率是围绕矢量而不是循环设计的。 很少(尽管确实会发生)for或while循环是解决问题的最佳方法。 对于您的情况,最好使用if / else的向量化版本:ifelse。 它需要一个测试向量(例如, result %in% 1:2
)和两个可能的响应向量,具体取决于测试结果。 所有这些必须具有相同的长度。 当您给出长度为1的答案时,它将扩展到适当的长度,否则会出现错误。 在这里,它看起来像这样:
data$results <- ifelse(results %in% 1:2, trueAnswer, falseAnswer)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.