簡體   English   中英

使用R語言的正則表達式從HTML頁面提取日期

[英]Extract Date from HTML page using regex in R language

如何使用REGEX僅提取title =“ 11:53 AM-2018 May 27”中的日期。

僅供參考,這是來自HTML頁面。 我想使用R語言將所有此類匹配提取到列表中。

我的輸出應該是2018年5月27日。

在此先感謝您的時間 :)

弄清楚了:

rawHTML <- paste(readLines("D:\\practicum\\CSK.html"), collapse="\n")

b<-unlist(str_match_all(rawHTML, '\\d{2} \\w+ 2018'))

考慮到您要在其中找到日期的頁面的HTML代碼,最簡單的方法是使用正則表達式查找代碼中看起來像title="11:53 AM - 27 May 2018"所有部分title="11:53 AM - 27 May 2018"那么您可以只需再次使用正則表達式從字符串中提取日期即可。 我已經寫了一個基本代碼,您可以根據自己的需要對其進行修改和使用。

first_match <- regexpr(pattern='title\\s*=\\s*"\\d\\d:\\d\\d\\s*(AM|PM)\\s*-\\s*\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}"', str)`
match_str <- regmatches(str,m)
date_exp <- regexpr(pattern='\\d\\d\\s[a-zA-Z]{3}\\s\\d{4}', match_str)
date <- regmatches(match_str, date_exp)

date是所需的輸出,str是作為字符串的代碼。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM