[英]Regular expression matches a few symbols but not includes some
有段落,我想使用正則表達式提取其中的所有單詞。
a bdag agasg it's the cookies for dogs',don't you think so? the word 'wow' in english means.you hey b 097 dag final
我用re.findall(regX,str)嘗試了幾種正則表達式,發現其中一個可以匹配大多數單詞。
regX = "[ ,\.\?]?([a-z]+'?[a-z]?)[ ,\.\?]?"
[“ a”,“ bdag”,“ agasg”,“它”,“ the”,“ cookies”,“ for”,“ dogs”,“ do n't”,“ you”,“ think”,“ so” ','the','word',' wow' ,'in','english','means','you','hey','b','dag','final']
除了**wow'**
之外一切都很好。
我想知道正則表達式是否可以解釋邏輯“它可以是逗號/空格/句號/等,但不能是撇號”。
有人可以建議嗎?
嘗試:
[ ,\.\?']?([a-z]*('\w)?)[\' ,\.\?]?
添加了另一個組,因此您只需要選擇組1。
我不完全了解您想要的輸出是什么,但是請嘗試以下操作:
[ ,\.\?]?(["-']?+[a-z]+["-']?[a-z]?)[ ,\.\?]?
使用此正則表達式可讓您在文本中獲得'
和"
。
如果這仍然不是您想要的,請告訴我,以便我更新我的答案。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.