[英]Get the 4th Wednesday of each November in R
我有一个时间索引矩阵(xts 对象),我只想要每年 11 月的第四个星期三。
require(quantmod)
getSymbols("^GSPC", from="1900-01-01") #returns GSPC
GSPC$WED <- weekdays(time(GSPC)) == "Wednesday"
GSPC$NOV <- months(time(GSPC)) == "November"
G <- GSPC[GSPC$WED==1 & GSPC$NOV==1]
这就是我在 R 中学到的。为了解决我的问题,我选择了 bash。
write.zoo(G, "wen_in_nov")
我做了以下黑客:
cat wen_in_nov |
grep -v IND |
cut -c 1-10 |
sed 's/-/ /g' |
awk '{if($3 >= 22 && $3 < 29) print $1, $2, $3, "winner"}' |
sed 's/ /-/g' > fourth_wen
第四个fourth_wen
文件需要将-
与字符串 'winner' 分开,所以我只是在 vi 中这样做了。 导入回 R:
fourth_wen <- read.zoo("fourth_wen", format="%Y-%m-%d")
这基本上是自 1950 年以来 11 月的第四个星期三。有没有办法用更少的代码在 R 中完成这一切?
使用.indexmon等直接访问 POSIXlt 值
GSPC[.indexmon(GSPC)==10 & .indexmday(GSPC) > 22 & .indexmday(GSPC) < 29
&.indexwday(GSPC) == 3]
GSPC.Open GSPC.High GSPC.Low GSPC.Close GSPC.Volume GSPC.Adjusted
2007-11-28 1432.95 1471.62 1432.95 1469.02 4508020000 1469.02
2008-11-26 852.90 887.68 841.37 887.68 5793260000 887.68
2009-11-25 1106.49 1111.18 1104.75 1110.63 3036350000 1110.63
2010-11-24 1183.70 1198.62 1183.70 1198.35 3384250000 1198.35
2011-11-23 1187.48 1187.48 1161.79 1161.79 3798940000 1161.79
我的RcppBDT包有一个功能。
RcppBDT包装了Boost Date_Time库的一部分,而Boost Date_Time恰好有许多类似的功能。 所以这里是 2008 年到 2011 年的快速循环,得到每年 11 月的第四个星期三:
R> library(RcppBDT)
Loading required package: Rcpp
Creating a generic function for ‘print’ from package ‘base’ in package ‘RcppBDT’
Creating a generic function for ‘format’ from package ‘base’ in package ‘RcppBDT’
R> for (y in 2008:2011) print(getNthDayOfWeek(fourth, Wed, Nov, y))
[1] "2008-11-26"
[1] "2009-11-25"
[1] "2010-11-24"
[1] "2011-11-23"
R>
这里的fourth
、 Wed
和Nov
是包命名空间中的常量,以底层 C++ 库中相应的enum
类型为模型。 使用起来非常简单。
编辑:这是自 2000 年以来所有 4th-Wed-in-Nov 的完整示例。我确保GSPC
和矢量Wed
of Fridays 都同意相同的Date
类型。 那么只需将Wed
加入GSPC
:
R> library(quantmod)
Loading required package: Defaults
Loading required package: TTR
R> getSymbols("^GSPC", from="1900-01-01")
R> Wed <- sapply(2000:2011, function(y) getNthDayOfWeek(fourth, Wed, Nov, y))
R> index(GSPC) <- as.Date(index(GSPC))
R> GSPC[as.Date(Wed)]
GSPC.Open GSPC.High GSPC.Low GSPC.Close GSPC.Volume GSPC.Adjusted
2000-11-22 1347.35 1347.35 1321.89 1322.36 963200000 1322.36
2001-11-28 1149.50 1149.50 1128.29 1128.52 1423700000 1128.52
2002-11-27 913.31 940.41 913.31 938.87 1350300000 938.87
2003-11-26 1053.89 1058.45 1048.28 1058.45 1097700000 1058.45
2004-11-24 1176.94 1182.46 1176.94 1181.76 1149600000 1181.76
2005-11-23 1261.23 1270.64 1259.51 1265.61 1985400000 1265.61
2006-11-22 1402.69 1407.89 1402.26 1406.09 2237710000 1406.09
2007-11-28 1432.95 1471.62 1432.95 1469.02 4508020000 1469.02
2008-11-26 852.90 887.68 841.37 887.68 5793260000 887.68
2009-11-25 1106.49 1111.18 1104.75 1110.63 3036350000 1110.63
2010-11-24 1183.70 1198.62 1183.70 1198.35 3384250000 1198.35
2011-11-23 1187.48 1187.48 1161.79 1161.79 3798940000 1161.79
R>
编辑 2作为公共服务公告,这里是杰夫的回答失败的地方:
R> ind <- .indexmon(GSPC)==10 & .indexmday(GSPC) > 22 & .indexmday(GSPC) < 29
+ & .indexwday(GSPC) == 3
R> index(GSPC)[ind]
[1] "1951-11-28" "1952-11-26" "1953-11-25" "1954-11-24" "1955-11-23"
[6] "1956-11-28" "1957-11-27" "1958-11-26" "1959-11-25" "1960-11-23"
[11] "1962-11-28" "1963-11-27" "1964-11-25" "1965-11-24" "1966-11-23"
[16] "1968-11-27" "1969-11-26" "1970-11-25" "1971-11-24" "1973-11-28"
[21] "1974-11-27" "1975-11-26" "1976-11-24" "1977-11-23" "1979-11-28"
[26] "1980-11-26" "1981-11-25" "1982-11-24" "1983-11-23" "1984-11-28"
[31] "1985-11-27" "1986-11-26" "1987-11-25" "1988-11-23" "1990-11-28"
[36] "1991-11-27" "1992-11-25" "1993-11-24" "1994-11-23" "1996-11-27"
[41] "1997-11-26" "1998-11-25" "1999-11-24" "2001-11-28" "2002-11-27"
[46] "2003-11-26" "2004-11-24" "2005-11-23" "2007-11-28" "2008-11-26"
[51] "2009-11-25" "2010-11-24" "2011-11-23"
和
R> S <- 1951:2011
R> S[!S %in% as.numeric(format(index(GSPC)[ind], "%Y")) ]
[1] 1961 1967 1972 1978 1989 1995 2000 2006
R>
因此,当您使用他的方法时,在 60 人的样本中缺少 8 年。
这是一种方法
nov_dates <- expand.grid(1:30, 11, 1900:2011)
nov_dates <- apply(nov_dates, 1, paste, collapse = "-")
nov_dates <- dmy(nov_dates)
nov_wed <- nov_dates[wday(nov_dates, label = TRUE) == 'Wed']
nov_4wed <- nov_wed[seq_along(nov_wed) %% 4 == 0]
编辑。 一个小错误仍然存在。 如果 11 月有 5 个星期三,则此代码不起作用。 一个小的更正会处理它,我会尽快发布。 这是一个可以正常工作的解决方案
library(plyr)
library(lubridate)
nov_dates <- expand.grid(day = 1:30, month = 11, year = 1900:2011)
nov_dates <- transform(nov_dates,
date = dmy(paste(day, month, year, sep = "-"))
nov_4_wed <- ddply(nov_dates, .(year), summarize, date[wday(date) == 4][4])
我不会花很多时间在时间序列对象上,所以可能有比使用substr
提取日期更好的功能(事实上,我确定有,我只是不知道它的顶部我的头)。 但这似乎有效:
rs <- subset(GSPC,weekdays(time(GSPC)) == "Wednesday" &
months(time(GSPC)) == "November" &
as.numeric(substr(time(GSPC),9,10)) >= 22 &
as.numeric(substr(time(GSPC),9,10)) < 29)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.