簡體   English   中英

R因子和水平

[英]R factor and level

級別有道理,它是向量的唯一值,但我無法理解是什么因素。 似乎只是重復了向量值。

factor(c(1,2,3,3,4,5,1))
[1] 1 2 3 3 4 5 1
Levels: 1 2 3 4 5

誰能解釋應該做的是什么因素,或者我為什么要使用它?

我開始懷疑因素是否像數據庫中的代碼表。 因子名稱是代碼表名稱,級別是代碼表的唯一選項。

因素存儲為哈希表,而不是原始字符向量。 這意味着什么? 有兩個主要好處。

  1. 內存占用空間小得多。 考慮一個文本文件,該文本文件中的短語“ New Jersey”超過ASCII編碼的100,000倍。 現在想象一下,如果您只需要存儲數字16(以100,000次二進制存儲,然后存儲另一個表,該數字表示16表示“新澤西州”。它更精簡,更快。

  2. 尤其是對於可視化和統計分析,我們經常測試“所有類別”中的值(請考慮使用方差分析(ANOVA)或對堆積的條形圖進行着色的方式)。 我們可以重復編碼所有函數以將觀察到的選擇堆疊在字符串向量中,也可以簡單地創建一種新型向量來告訴您有效選擇是什么。 那就是一個因素,有效的選擇就是水平。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM