R - 數據框列中唯一值的數量

Question

對於數據幀df ，我需要找到some_col的唯一值。 嘗試了以下

length(unique(df["some_col"]))

但這並沒有給出預期的結果。 但是length(unique(some_vector))對向量起作用並給出預期的結果。

創建 df 時的一些前面的步驟

df <- read.csv(file, header=T)
typeof(df) #=> "list"
typeof(unique(df["some_col"])) #=> "list"
length(unique(df["some_col"])) #=> 1

Answer 1

嘗試使用[[而不是[ 。 [返回一個list （實際上是一個data.frame ）， [[返回一個vector 。

df <- data.frame( some_col = c(1,2,3,4),
                  another_col = c(4,5,6,7) )

length(unique(df[["some_col"]]))
#[1] 4

class( df[["some_col"]] )
[1] "numeric"

class( df["some_col"] )
[1] "data.frame"

您得到的值為 1，因為list的長度為 1（1 列），即使該 1 個元素包含多個值。

Answer 2

你需要使用

length(unique(unlist(df[c("some_col")])))

當您通過 df[c("some_col")] 或 df["some_col"] 調用 column 時； 它把它作為一個列表。 Unlist 會將其轉換為矢量，您可以輕松使用它。 當您通過 df$some_col 調用 column .. 它將數據列拉為向量

Answer 3

我想你可能只是錯過了一個,試試

length(unique(df[,"some_col"]))

回應評論：

df <- data.frame(cbind(A=c(1:10),B=rep(c("A","B"),5)))
df["B"]

輸出：

B
1  A
2  B
3  A
4  B
5  A
6  B
7  A
8  B
9  A
10 B

和

length(unique(df[,"B"]))

輸出：

[1] 1

這與 OP 發布的不正確/不受歡迎的輸出相同

但是用逗號,

df[,"B"]

輸出：

 [1] A B A B A B A B A B
Levels: A B

和

length(unique(df[,"B"]))

現在為您提供 OP 正確/所需的輸出。 在這個例子中是 2

[1] 2

原因是df["some_col"]調用data.frame和length調用對象類data.frame計算該對象中的data.frame數，即 1，而df[,"some_col"]返回一個vector對vector length調用正確返回該vector的元素數。 所以你會看到一個逗號 ( , ) 使一切變得不同。

Answer 4

這是另一種選擇：

df %>% 
distinct(column_name) %>% 
count()

或者這個沒有tidyverse：

count(distinct(df, column_name))

檢查網絡中的基准測試，您會發現 distinct() 速度很快。

Answer 5

data.table 包包含方便的簡寫uniqueN 。 從文檔

當 x 是解剖向量時，uniqueN 等價於 length(unique(x))，當 x 是 data.frame 或 data.table 時，等價於 nrow(unique(x))。 唯一行的數量是直接計算的，無需具體化中間唯一的 data.table，因此速度更快，內存效率更高。

您可以將它與數據框一起使用：

df <- data.frame(some_col = c(1,2,3,4),
                 another_col = c(4,5,6,7) )
data.table::uniqueN(df[['some_col']])

[1] 4

或者如果你已經有一個 data.table

dt <- setDT(df)
dt[,uniqueN(some_col)]

[1] 4

Answer 6

使用 tidyverse

df %>% 
  select("some_col") %>% 
  n_distinct()

R - 數據框列中唯一值的數量

問題描述

6 個解決方案

解決方案1
17 已采納 2017-01-28 06:12:59

解決方案2
8 2017-01-28 06:13:12

解決方案3
3 2017-01-28 06:23:35

解決方案4
0 2020-01-10 16:37:14

解決方案5
0 2020-02-04 08:31:01

解決方案6
0 2021-05-19 15:46:04

R - 數據框列中唯一值的數量

問題描述

6 個解決方案

解決方案1 17 已采納 2017-01-28 06:12:59

解決方案2 8 2017-01-28 06:13:12

解決方案3 3 2017-01-28 06:23:35

解決方案4 0 2020-01-10 16:37:14

解決方案5 0 2020-02-04 08:31:01

解決方案6 0 2021-05-19 15:46:04

解決方案1
17 已采納 2017-01-28 06:12:59

解決方案2
8 2017-01-28 06:13:12

解決方案3
3 2017-01-28 06:23:35

解決方案4
0 2020-01-10 16:37:14

解決方案5
0 2020-02-04 08:31:01

解決方案6
0 2021-05-19 15:46:04