[英]Generating a order rank column with dplyr based on changes on the grouping variable
我在使用dplyr時遇到了一點挑戰,那就是要根據特定消費者的交易日志在tbl_df對象上生成等級列。 我的數據看起來像這樣:
consumerid merchant_id eventtimestamp merchant_visit_rank
(chr) (int) (time) (dbl)
1 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-15 13:33:00 0
2 004a5cc3-3d60-4d14-85b3-706e454aae13 56 2015-01-16 13:58:03 1
3 004a5cc3-3d60-4d14-85b3-706e454aae13 56 2015-01-16 13:58:41 0
4 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 13:59:05 1
5 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 13:59:55 1
6 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 14:15:56 0
7 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:18 1
8 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:19 0
9 004a5cc3-3d60-4d14-85b3-706e454aae13 54 2015-01-21 13:52:24 0
10 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:29 0
.. ... ... ... ...
我想生成一個商家訪問等級,以便在交易期間告訴我該商家的訂單。 在我們的情況下,正確的排名將如下所示:
consumerid merchant_id eventtimestamp merchant_visit_rank
(chr) (int) (time) (dbl)
1 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-15 13:33:00 1
2 004a5cc3-3d60-4d14-85b3-706e454aae13 56 2015-01-16 13:58:03 2
3 004a5cc3-3d60-4d14-85b3-706e454aae13 56 2015-01-16 13:58:41 2
4 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 13:59:05 3
5 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 13:59:55 3
6 004a5cc3-3d60-4d14-85b3-706e454aae13 52 2015-01-16 14:15:56 3
7 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:18 4
8 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:19 4
9 004a5cc3-3d60-4d14-85b3-706e454aae13 54 2015-01-21 13:52:24 5
10 004a5cc3-3d60-4d14-85b3-706e454aae13 58 2015-01-21 13:52:29 6
.. ... ... ... ...
我試圖像這樣在dplyr中使用window函數:
measure_media_interaction %>%
#selecting the fields we wish from the dataframe
select(consumerid,merchant_id,eventtimestamp) %>%
#mutate a placeholder column to be used for the rank
mutate(merchant_visit = 0) %>%
#sort them by consumer and timestamp
arrange(consumerid,eventtimestamp) %>%
#change the column so it shows that this merchant was the first this consumer visited
#or not
mutate(merchant_visit =
ifelse(lead(merchant_id)!=merchant_id,merchant_visit,merchant_visit+1))
但是我被困住了,我不知道如何有效地做到這一點。 有什么想法嗎?
這是一個解決方案。 我們使用lag
來測試merchant_id是否更改,並使用cumsum
來增加計數器。
measure_media_interaction %>%
select(consumerid,merchant_id,eventtimestamp) %>%
arrange(consumerid,eventtimestamp) %>%
mutate(merchant_visit=cumsum(c(1,(merchant_id != lag(merchant_id))[-1])))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.