[英]R factor and level
级别有道理,它是向量的唯一值,但我无法理解是什么因素。 似乎只是重复了向量值。
factor(c(1,2,3,3,4,5,1))
[1] 1 2 3 3 4 5 1
Levels: 1 2 3 4 5
谁能解释应该做的是什么因素,或者我为什么要使用它?
我开始怀疑因素是否像数据库中的代码表。 因子名称是代码表名称,级别是代码表的唯一选项。 ?
因素存储为哈希表,而不是原始字符向量。 这意味着什么? 有两个主要好处。
内存占用空间小得多。 考虑一个文本文件,该文本文件中的短语“ New Jersey”超过ASCII编码的100,000倍。 现在想象一下,如果您只需要存储数字16(以100,000次二进制存储,然后存储另一个表,该数字表示16表示“新泽西州”。它更精简,更快。
尤其是对于可视化和统计分析,我们经常测试“所有类别”中的值(请考虑使用方差分析(ANOVA)或对堆积的条形图进行着色的方式)。 我们可以重复编码所有函数以将观察到的选择堆叠在字符串向量中,也可以简单地创建一种新型向量来告诉您有效选择是什么。 那就是一个因素,有效的选择就是水平。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.