使用列輸入從函數分配data.table列

Question

我有一個帶有幾列的數據表，用作創建的電話驗證功能的輸入。

library(data.table)
dt <- data.table(ID = c(1:6),
                 phone = c("0412 345 789","0438 123 456",
                           "041 2345 543", "(02) 1234 5678",
                           "9876 1234", "04123456789"),
                 state = c("NSW","QLD","SA"),
                 country = c("AU"),
                 phone_countries = c("AU","AU","AU","AU,US","AU,US","AU,US"))

#    ID          phone state country phone_countries
# 1:  1   0412 345 789   NSW      AU              AU
# 2:  2   0438 123 456   QLD      AU              AU
# 3:  3   041 2345 543    SA      AU              AU
# 4:  4 (02) 1234 5678   NSW      AU           AU,US
# 5:  5      9876 1234   QLD      AU           AU,US
# 6:  6    04123456789    SA      AU           AU,US

函數isValidPhone看起來像這樣（它旨在驗證幾個不同位置的電話號碼。為簡便起見，我省略了一些正則表達式。）

isValidPhone <- function(phone, state, country, validation_countries) {

  if (!(country %in% unlist(strsplit(validation_countries, ","))))
    return(FALSE)

  # remove whitespace, hyphens and brackets
  phone_clean <- gsub("[[:space:]]|-|\\.|\\(|\\)", "", phone)

  if (is.na(phone_clean) | phone_clean == '' | is.na(iconv(phone_clean, "", "ASCII")))
    return(FALSE)

  if (country == "AU") {
    # append state area code if length is 8 digits
  #print(paste("phone:", phone_clean, "state:", state))
    if (nchar(phone_clean, "width") == 8)
      if (state %in% c('ACT', 'NSW', 'QLD', 'VIC', 'TAS', 'SA', 'NT', 'WA'))
      phone_clean <- switch (state,
        'ACT' = paste0("02",phone_clean),
        'NSW' = paste0("02",phone_clean),
        'QLD' = paste0("07",phone_clean),
        'VIC' = paste0("03",phone_clean),
        'TAS' = paste0("03",phone_clean),
        'SA' = paste0("08",phone_clean),
        'NT' = paste0("08",phone_clean),
        'WA' = paste0("08",phone_clean))

    if (nchar(phone_clean, "width") == 9)
      if(substr(phone_clean,1,1) %in% c(2:4,7,8))
        phone_clean <- paste0("0", phone_clean)

    return(grepl("^(?:\\+?61|0)[23478](?:[ -]?[0-9]){8}$",
                 as.character(phone_clean), ignore.case=TRUE))
  }
}

我在data.table dt分配了一個稱為validphone電話的validphone

dt[, validphone := isValidPhone(phone, state, country, phone_countries), by = 1:nrow(dt)]

#    ID          phone state country phone_countries validphone
# 1:  1   0412 345 789   NSW      AU              AU       TRUE
# 2:  2   0438 123 456   QLD      AU              AU       TRUE
# 3:  3   041 2345 543    SA      AU              AU       TRUE
# 4:  4 (02) 1234 5678   NSW      AU           AU,US       TRUE
# 5:  5      9876 1234   QLD      AU           AU,US       TRUE
# 6:  6    04123456789    SA      AU           AU,US      FALSE

不幸的是，我不得不以當前的幌子使用by = 1:nrow(dt) ，好像我沒有這樣做一樣，它會將完整的列數據傳遞到導致問題的參數中。 這導致對我的真實數據集（〜300K）進行了大量函數調用，並且性能不佳。

我確實讀過，使用向量化函數會更好，但是我不清楚如何做到這一點。

有沒有更有效的方法來達到我想要的結果？

Answer 1

要對向量使用功能，需要進行一些重新設計：

主要通過在過濾后的行上分配FALSE來替換if(...) return(FALSE) ，並以相反的順序對其進行求值（最后return最后一個單詞=>最后分配的最后一個單詞）

該switch也需要用ifelse代替。

您最終得到這樣的結果：

isValidPhone <- function(phone, state, country, validation_countries) {
  phone_clean <- gsub("[[:space:]]|-|\\.|\\(|\\)", "", phone)

  AddArea <- country == "AU" & nchar(phone_clean) == 8 & 
    state %in% c('ACT', 'NSW', 'QLD', 'VIC', 'TAS', 'SA', 'NT', 'WA')
  phone_clean[AddArea] <- ifelse(state[AddArea]%in%c('ACT','NSW'),
                                 paste0("02",phone_clean[AddArea]),
                                 ifelse(state[AddArea]%in%c('VIC','TAS'),
                                        paste0("03",phone_clean[AddArea]),
                                        ifelse(state[AddArea]%in%c('SA','NT', 'WA'),
                                               paste0("08",phone_clean[AddArea]),
                                               paste0("02",phone_clean[AddArea]))))

  AddZero <- nchar(phone_clean) == 9 & substr(phone_clean,1,1) %in% c(2:4,7,8)
  phone_clean[AddZero] <- paste0("0", phone_clean[AddZero])

  ans <- grepl("^(?:\\+?61|0)[23478](?:[ -]?[0-9]){8}$",
                       as.character(phone_clean), ignore.case=TRUE)

  ans[(!(country %in% unlist(strsplit(validation_countries, ",")))) |
      is.na(phone_clean) | phone_clean == '' | 
      is.na(iconv(phone_clean, "", "ASCII"))] <- FALSE
  return(ans)
}

使用列輸入從函數分配data.table列

問題描述

1 個解決方案

解決方案1
0 已采納 2016-10-21 01:46:38

使用列輸入從函數分配data.table列

問題描述

1 個解決方案

解決方案1 0 已采納 2016-10-21 01:46:38

解決方案1
0 已采納 2016-10-21 01:46:38