从 R 中的数据框列中删除重音

Question

我得到了一个 data.table 基础。 我在这个 data.table 中有一个术语列

class(base$term)
[1] character
length(base$term)
[1] 27486

我能够从字符串中删除重音符号。 我能够从字符串向量中删除重音符号。

iconv("Millésime",to="ASCII//TRANSLIT")
[1] "Millesime"
iconv(c("Millésime","boulangère"),to="ASCII//TRANSLIT")
[1] "Millesime" "boulangere"

但是由于某种原因，当我在我的术语列上应用完全相同的功能时它不起作用

base$terme[2]
[1] "Millésime"
iconv(base$terme[2],to="ASCII//TRANSLIT")
[1] "MillACsime"

有人知道这里发生了什么吗？

Answer 1

好的解决问题的方法：

Encoding(base$terme[2])
[1] "UTF-8"
iconv(base$terme[2],from="UTF-8",to="ASCII//TRANSLIT")
[1] "Millesime"

感谢@nicola

Answer 2

使用stringi包可能更容易。 这样，您无需事先检查编码。 此外， stringi在操作系统之间是一致的，而inconv则不是。

library(stringi)

base <- data.table(terme = c("Millésime", 
                             "boulangère", 
                             "üéâäàåçêëèïîì"))

base[, terme := stri_trans_general(str = terme, 
                                   id = "Latin-ASCII")]

> base
           terme
1:     Millesime
2:    boulangere
3: ueaaaaceeeiii

Answer 3

您可以应用此功能

    rm_accent <- function(str,pattern="all") {
   if(!is.character(str))
    str <- as.character(str)

  pattern <- unique(pattern)

  if(any(pattern=="Ç"))
    pattern[pattern=="Ç"] <- "ç"

  symbols <- c(
    acute = "áéíóúÁÉÍÓÚýÝ",
    grave = "àèìòùÀÈÌÒÙ",
    circunflex = "âêîôûÂÊÎÔÛ",
    tilde = "ãõÃÕñÑ",
    umlaut = "äëïöüÄËÏÖÜÿ",
    cedil = "çÇ"
  )

  nudeSymbols <- c(
    acute = "aeiouAEIOUyY",
    grave = "aeiouAEIOU",
    circunflex = "aeiouAEIOU",
    tilde = "aoAOnN",
    umlaut = "aeiouAEIOUy",
    cedil = "cC"
  )

  accentTypes <- c("´","`","^","~","¨","ç")

  if(any(c("all","al","a","todos","t","to","tod","todo")%in%pattern)) # opcao retirar todos
    return(chartr(paste(symbols, collapse=""), paste(nudeSymbols, collapse=""), str))

  for(i in which(accentTypes%in%pattern))
    str <- chartr(symbols[i],nudeSymbols[i], str) 

  return(str)
}

Answer 4

三种去除重音的方法 - 下面显示并相互比较。
要玩的数据：

dtCases <- fread("https://github.com/ishaberry/Covid19Canada/raw/master/cases.csv", stringsAsFactors = F )
dim(dtCases) #  751526     16

基准测试：

> system.time(dtCases [, city0 := health_region])
   user  system elapsed 
  0.009   0.001   0.012 
> system.time(dtCases [, city1 := base::iconv (health_region, to="ASCII//TRANSLIT")]) # or ... iconv (health_region, from="UTF-8", to="ASCII//TRANSLIT")
   user  system elapsed 
  0.165   0.001   0.200 
> system.time(dtCases [, city2 := textclean::replace_non_ascii (health_region)])
   user  system elapsed 
  9.108   0.063   9.351 
> system.time(dtCases [, city3 := stringi::stri_trans_general (health_region,id = "Latin-ASCII")])
   user  system elapsed 
   4.34    0.00    4.46

结果：

> dtCases[city0!=city1, city0:city3] %>% unique
                           city0                         city1                         city2                         city3
                          <char>                        <char>                        <char>                        <char>
1:                      Montréal                      Montreal                      Montreal                      Montreal
2:                    Montérégie                    Monteregie                    Monteregie                    Monteregie
3:          Chaudière-Appalaches          Chaudiere-Appalaches          Chaudiere-Appalaches          Chaudiere-Appalaches
4:                    Lanaudière                    Lanaudiere                    Lanaudiere                    Lanaudiere
5:                Nord-du-Québec                Nord-du-Quebec                Nord-du-Quebec                Nord-du-Quebec
6:         Abitibi-Témiscamingue         Abitibi-Temiscamingue         Abitibi-Temiscamingue         Abitibi-Temiscamingue
7: Gaspésie-Îles-de-la-Madeleine Gaspesie-Iles-de-la-Madeleine Gaspesie-Iles-de-la-Madeleine Gaspesie-Iles-de-la-Madeleine
8:                     Côte-Nord                     Cote-Nord                     Cote-Nord                     Cote-Nord

结论：

base::iconv()是最快和首选的方法。 测试法语单词。 未在其他语言上测试。

Answer 5

这是针对 DataFrames 修订的 Jeldrik 解决方案的一个版本。 请注意:=运算符在基础 R 中已弃用。

library(stringi)

base <- data.frame(terme = c("Millésime", 
                             "boulangère", 
                             "üéâäàåçêëèïîì"))

base$terme = stri_trans_general(str = base$terme, id = "Latin-ASCII")

从 R 中的数据框列中删除重音

问题描述

5 个解决方案

解决方案1
30 2016-08-26 07:57:24

解决方案2
26 2019-06-14 09:20:47

解决方案3
3 2019-02-18 16:18:20

解决方案4
2 2021-01-25 22:52:51

解决方案5
0 2021-08-13 22:30:27

从 R 中的数据框列中删除重音

问题描述

5 个解决方案

解决方案1 30 2016-08-26 07:57:24

解决方案2 26 2019-06-14 09:20:47

解决方案3 3 2019-02-18 16:18:20

解决方案4 2 2021-01-25 22:52:51

解决方案5 0 2021-08-13 22:30:27

解决方案1
30 2016-08-26 07:57:24

解决方案2
26 2019-06-14 09:20:47

解决方案3
3 2019-02-18 16:18:20

解决方案4
2 2021-01-25 22:52:51

解决方案5
0 2021-08-13 22:30:27