[英]Regex to Remove Everything but Numbers, Letters and Spaces in R
如何在R中刪除這些討厭的反斜杠? 我搜尋了網絡和stackoverflow以嘗試找到一種方法來擺脫反斜杠...沒有運氣。
我嘗試了很多不同的方法,但是我認為唯一可以使用的方法是使用正則表達式和gsub()刪除每個不是數字,字母或空格的字符。 這是我的字符串:
"_kMDItemOwnerUserID = 99kMDItemAlternateNames = ( \"(500) Days of Summer (2009).m4v\")kMDItemAudioBitRate = 163kMDItemAudioChannelCount = 2kMDItemAudioEncodingApplication = \"HandBrake 0.9.4 2009112300\"kMDItemCodecs = ( \"H.264\", AAC, \"QuickTime Text\")"
如您所見,它非常混亂,到處都有反斜杠和引號。 最終,我要提取的電影名稱是:“((500)Days of Summer(2009))”。
什么是匹配數字,字母和空格的所有內容的正則表達式?
預先非常感謝您的幫助。
gsub("[^[:alnum:] ]", "", x)
嘗試替換字符類[^[:alnum:] ]
,它將匹配不是字母,數字或空格的任何字符:
完整代碼:
x <- "_kMDItemOwnerUserID = 99kMDItemAlternateNames = ( \"(500) Days of Summer (2009).m4v\")kMDItemAudioBitRate = 163kMDItemAudioChannelCount = 2kMDItemAudioEncodingApplication = \"HandBrake 0.9.4 2009112300\"kMDItemCodecs = ( \"H.264\", AAC, \"QuickTime Text\")"
gsub("[^[:alnum:] ]", "", x)
[1] "kMDItemOwnerUserID 99kMDItemAlternateNames 500 Days of Summer 2009m4vkMDItemAudioBitRate 163kMDItemAudioChannelCount 2kMDItemAudioEncodingApplication HandBrake 094 2009112300kMDItemCodecs H264 AAC QuickTime Text"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.