繁体   English   中英

正则表达式可通过新颖的文本进行解析

[英]Regular expression to parse through novel text

我试图从包含小说的文本文件阅读。 我想阅读每个连续的单词,但是小说中确实存在标点符号的事实使这一点变得很困难。

我只需要阅读小说中的单词,因此忽略诸如“,”,“!”之类的字符 和“?”,但我需要包括某些非字母字符,例如实际上是单词一部分的撇号。

我对正则表达式不太满意,但我的感觉是此正则表达式仅捕获字符,但不考虑撇号:

[^A-Za-z]+

谁能帮我得到一个正则表达式,该正则表达式将按单词定界,忽略标点符号,但保持撇号和其他构成单词部分的字符?

您的模式应如下所示:

\\b[a-zA-Z]+[\\']*[a-zA-Z]*\\b

它说明了字边界,并允许1撇号。 其他特殊字符可以放在第二组方括号中。

只需在[]括号内添加要包含的其他特殊字符即可。 某些字符可能需要转义。 我在下面为您包括了单引号:

/([^A-Za-z']+)/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM