使用R語言的正則表達式從HTML頁面提取日期

Question

如何使用REGEX僅提取title =“ 11:53 AM-2018 May 27”中的日期。

僅供參考，這是來自HTML頁面。 我想使用R語言將所有此類匹配提取到列表中。

我的輸出應該是2018年5月27日。

在此先感謝您的時間：）

Answer 1

弄清楚了：

rawHTML <- paste(readLines("D:\\practicum\\CSK.html"), collapse="\n")

b<-unlist(str_match_all(rawHTML, '\\d{2} \\w+ 2018'))

Answer 2

考慮到您要在其中找到日期的頁面的HTML代碼，最簡單的方法是使用正則表達式查找代碼中看起來像title="11:53 AM - 27 May 2018"所有部分title="11:53 AM - 27 May 2018"那么您可以只需再次使用正則表達式從字符串中提取日期即可。 我已經寫了一個基本代碼，您可以根據自己的需要對其進行修改和使用。

first_match <- regexpr(pattern='title\\s*=\\s*"\\d\\d:\\d\\d\\s*(AM|PM)\\s*-\\s*\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}"', str)`
match_str <- regmatches(str,m)
date_exp <- regexpr(pattern='\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}', match_str)
date <- regmatches(match_str, date_exp)

date是所需的輸出，str是作為字符串的代碼。

使用R語言的正則表達式從HTML頁面提取日期

問題描述

2 個解決方案

解決方案1
0 2018-06-12 06:07:07

解決方案2
0 已采納 2018-06-12 06:54:08

使用R語言的正則表達式從HTML頁面提取日期

問題描述

2 個解決方案

解決方案1 0 2018-06-12 06:07:07

解決方案2 0 已采納 2018-06-12 06:54:08

解決方案1
0 2018-06-12 06:07:07

解決方案2
0 已采納 2018-06-12 06:54:08