[英]Convert multiple categorical variables to factors in R
稱呼
當前正在創建一個神經網絡,並且需要正確構造數據。 對於數據列之一,有字符串數據需要轉換為數字。 唯一的問題是,每行中的字符串數據都是示例QWERTGCD, AWERTKRD, TWERTKRR'
等。行超過1000行,每行都具有相同或不同的字符串,如發布的示例中所示。 我不知道如何將多個字符串轉換為這種規模的分類數據。 標簽部分也一樣。
到目前為止,我已經開始
dataset$Box = as.numeric(factor(dataset$Box, levels = c(), labels = c()))
不知道我是否想得太多,但是我無法弄清楚如何准確地輸入級別和表而無需費心地瀏覽數據並輸入自己。
這是正在處理的數據的示例。
B,11979,13236,1261,3,QWERTGCD,1 B,475514,476069,559,33,QWERTOOD,1 C,65534,65867,337,1,QWERAEER,1 C,73738,74657,923,2,AWERTWED,1
謝謝
沒有可重現的示例,很難確切地知道您需要什么,但是總的來說,R擅長的一件事是一次在整個列上運行操作。 您只是將dataset
名為Box
的列從字符串轉換為數值,並經過了一個因子。 factor()
為您查找列中的所有唯一值。 因此,您無需指定它們。
dataset$Box <- as.numeric(factor(dataset$Box))
將采用數據集中的Box
列,並將其從類character
轉換為類numeric
,並按字母數字順序對Box
中的字符值進行編號(除非另行指定)。 根據您的數據集的生成方式,它甚至可能已經成為一個因素。 您可以使用class(dataset$Box)
。 如果返回factor
dataset$Box <- as.numeric(dataset$Box)
需要運行dataset$Box <- as.numeric(dataset$Box)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.