[英]Extract Date from HTML page using regex in R language
如何使用REGEX僅提取title =“ 11:53 AM-2018 May 27”中的日期。
僅供參考,這是來自HTML頁面。 我想使用R語言將所有此類匹配提取到列表中。
我的輸出應該是2018年5月27日。
在此先感謝您的時間 :)
弄清楚了:
rawHTML <- paste(readLines("D:\\practicum\\CSK.html"), collapse="\n")
b<-unlist(str_match_all(rawHTML, '\\d{2} \\w+ 2018'))
考慮到您要在其中找到日期的頁面的HTML代碼,最簡單的方法是使用正則表達式查找代碼中看起來像title="11:53 AM - 27 May 2018"
所有部分title="11:53 AM - 27 May 2018"
那么您可以只需再次使用正則表達式從字符串中提取日期即可。 我已經寫了一個基本代碼,您可以根據自己的需要對其進行修改和使用。
first_match <- regexpr(pattern='title\\s*=\\s*"\\d\\d:\\d\\d\\s*(AM|PM)\\s*-\\s*\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}"', str)`
match_str <- regmatches(str,m)
date_exp <- regexpr(pattern='\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}', match_str)
date <- regmatches(match_str, date_exp)
date是所需的輸出,str是作為字符串的代碼。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.