[英]Matching words in uppercase with Regular expression on a text with multiple lines
我刮了几篇文章,并将它们收集到一个文本文件中。 从这些文章中,我想提取所有大写的单词:
这是所收集文章之一的样本:
"|[<p>Advertisement , By Milan Schreur and Alissa J. Rubin OCT. 5, 2016
, BRUSSELS — A man wounded two police officers with a knife in Brussels around noon on Wednesday in what the authorities called “a potential terrorist attack.” , ....]"
我要提取的是在大写锁定中键入的所有单词,在这种情况下,单词“ BRUSSELS”,但是在文件中还有很多。 因此,我想提取所有完全由大写字母组成的单词。
我尝试过这样的事情:
import re
text_open = open("Training_News_6.csv")
text_read = text_open.read()
articles = text_read.split("<p>")
pattern = re.findall("\s[A-Z]{4,}\s",'\n'.join(articles))
print(pattern)
在完成text_read.split
之后, articles
是一个列表。 re.findall
需要一个字符串。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.