[英]R - data.table fast lookup with regex
具有兩列(3-gram 及其計數)的 data.table,在 ngram 列上設置了一個鍵。 3-gram 是由空格分隔的三個單詞的單個字符向量。
set.seed(20182)
create.ngrams <- function(){
w1 <- paste(sample(letters[1:5], 3, T), collapse = '')
w2 <- paste(sample(letters[1:5], 3, T), collapse = '')
w3 <- paste(sample(letters, 5, T), collapse = '')
ngram <- paste(c(w1, w2, w3), collapse = " ")
return(ngram)
}
dt <- data.table(ngrams = replicate(100000, create.ngrams()), N = sample.int(100, 100000, replace=T))
dt[ngrams %like% '^ada cab \\.*']
我需要得出的是,給定一個 2-gram,在以 2-gram 為詞干的 3-gram 表中出現了多少個唯一的 3-gram? 到目前為止的方法是過濾 3-gram 表並使用正則表達式和 data.table %like%
function 獲取行數。 不幸的是, 文檔指出like
沒有使用 table 鍵。
注意:當前實現不使用排序鍵。
這大大減慢了過濾速度:
dt[ngrams %like% '^ada cab \\.*']
ngrams N
1: ada cab jsfzb 33
2: ada cab rbkqz 43
3: ada cab oyohg 10
4: ada cab dahtd 87
5: ada cab qgmfb 8
6: ada cab ylyfl 13
7: ada cab izeje 83
8: ada cab fukov 12
microbenchmark(dt[ngrams %like% '^ada cab \\.*']))
Unit: milliseconds
expr min lq mean median uq max neval
dt[ngrams %like% "^ada cab \\\\.*"] 22.4061 23.9792 25.89883 25.0981 26.88145 34.7454 100
在我正在使用的實際表(nrow = 46856038)上,性能太慢而無法完成我的任務:
Unit: seconds
expr min lq mean median uq max neval
t[ngrams %like% "^on the \\\\.*"] 10.48471 10.57198 11.27199 10.77015 10.94827 17.42804 100
我可以做些什么來提高性能? 我嘗試使用dplyr
一點,但收益似乎並不顯着。
你能用fixed=
模式 go 嗎? 如果你在所有ngram
前面加上一個空格,它會給你一個虛擬的“單詞邊界”,讓你做一個更快的模式:
dt[, ngrams1 := paste0(" ", ngrams)]
dt
# ngrams N ngrams1
# 1: dcd aee vxfba 99 dcd aee vxfba
# 2: cad bec alsmv 92 cad bec alsmv
# 3: ebe edd zbogd 90 ebe edd zbogd
# 4: aac ace miexa 26 aac ace miexa
# 5: aea cda ppyii 67 aea cda ppyii
# ---
# 99996: cca bbc xaezc 58 cca bbc xaezc
# 99997: ebc cae ktacb 95 ebc cae ktacb
# 99998: bed abe dpjmc 92 bed abe dpjmc
# 99999: dde cdb frkfz 79 dde cdb frkfz
# 100000: bed bce ydawa 52 bed bce ydawa
dt[ngrams %like% '^ada cab \\.*']
# ngrams N ngrams1
# 1: ada cab qbbiw 22 ada cab qbbiw
# 2: ada cab kpejz 16 ada cab kpejz
# 3: ada cab lighh 4 ada cab lighh
# 4: ada cab rxpmc 64 ada cab rxpmc
dt[grepl(' ada cab ', ngrams1, fixed = TRUE),]
# ngrams N ngrams1
# 1: ada cab qbbiw 22 ada cab qbbiw
# 2: ada cab kpejz 16 ada cab kpejz
# 3: ada cab lighh 4 ada cab lighh
# 4: ada cab rxpmc 64 ada cab rxpmc
在基准測試中,固定模式的速度要快 3-4 倍:
microbenchmark::microbenchmark(
a = dt[ngrams %like% '^ada cab \\.*'],
b = dt[grepl('^ada cab', ngrams),],
c = dt[ngrams1 %flike% ' ada cab ', ],
d = dt[grepl(' ada cab ', ngrams1, fixed = TRUE),]
)
# Unit: milliseconds
# expr min lq mean median uq max neval
# a 20.299101 21.364401 22.088702 21.832000 22.444351 25.403801 100
# b 20.605501 21.648101 22.656212 22.382001 23.384151 26.330201 100
# c 4.337301 4.872151 5.265142 5.125251 5.500951 9.646201 100
# d 4.301901 4.860501 5.221697 5.102000 5.465402 7.339400 100
如果模式偏離 3-3-5(例如,如果您有更多的 3,這可能會意外匹配而不是前幾個 3),這將不起作用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.