在排序的向量上進行多個匹配時，定義起始位置會更快嗎？

Question

我有一個按升序排列的具有一百萬個整數的向量，也有一個包含這些整數的1000個子集的向量。

什么會更快？ 如果samplevec變大，第二個版本會更快嗎？

samplevec=sort(sample(1:10000000, 1000000))
matchvec=sort(sample(samplevec, 10000))

for (i in matchvec) {
index=match(i, samplevec)
print(index)
}

要么

samplevec=sort(sample(1:10000000, 1000000))
matchvec=sort(sample(samplevec, 10000))

previous=1
for (i in matchvec) {
index=match(i, samplevec[previous:length(samplevec)])
previous=index
print(index)
}

Answer 1

進行基准測試很容易。 這只是兩個時間點。 隨意拉皮條並自動執行，以增加時間點數。

library(microbenchmark)

set.seed(357)

samplevec = sort(sample(1:1000, 1000))
matchvec = sort(sample(samplevec, 1000))

microbenchmark(
  version1 = {
    previous=1
    for (i in matchvec) {
      index=match(i, samplevec[previous:length(samplevec)])
      previous=index
    }},
  version2 = {
    for (i in matchvec) {
      index = match(i, samplevec)
    }}
)

Unit: milliseconds
     expr       min        lq      mean    median       uq
 version1 10.619105 10.711438 12.057713 10.811051 12.71902
 version2  2.419441  2.487062  2.853868  2.506603  2.56024

這是第二點。 這個跑了一點點。

set.seed(357)

samplevec = sort(sample(1:100000, 100000))
matchvec = sort(sample(samplevec, 100000))

microbenchmark(
  version1 = {
    previous=1
    for (i in matchvec) {
      index=match(i, samplevec[previous:length(samplevec)])
      previous=index
    }},
  version2 = {
    for (i in matchvec) {
      index=match(i, samplevec)
    }}
)

Unit: seconds
     expr       min        lq      mean    median        uq
 version1 108.96069 109.61137 110.87308 110.70554 111.61337
 version2  15.63668  15.71792  16.20434  15.84646  16.07487

在排序的向量上進行多個匹配時，定義起始位置會更快嗎？

問題描述

1 個解決方案

解決方案1
1 已采納 2016-11-08 08:08:37

在排序的向量上進行多個匹配時，定義起始位置會更快嗎？

問題描述

1 個解決方案

解決方案1 1 已采納 2016-11-08 08:08:37

解決方案1
1 已采納 2016-11-08 08:08:37