在多行文本上用正则表达式匹配大写单词

Question

我刮了几篇文章，并将它们收集到一个文本文件中。 从这些文章中，我想提取所有大写的单词：

这是所收集文章之一的样本：

"|[<p>Advertisement ,   By  Milan Schreur  and     Alissa J. Rubin    OCT. 5, 2016 
 ,  BRUSSELS — A man wounded two police officers with a knife in Brussels around noon on Wednesday in what the authorities called “a potential terrorist attack.” , ....]"

我要提取的是在大写锁定中键入的所有单词，在这种情况下，单词“ BRUSSELS”，但是在文件中还有很多。 因此，我想提取所有完全由大写字母组成的单词。

我尝试过这样的事情：

import re 

text_open = open("Training_News_6.csv")
text_read = text_open.read()
articles = text_read.split("<p>")
pattern = re.findall("\s[A-Z]{4,}\s",'\n'.join(articles))
print(pattern)

Answer 1

在完成text_read.split之后， articles是一个列表。 re.findall需要一个字符串。

在多行文本上用正则表达式匹配大写单词

问题描述

1 个解决方案

解决方案1
0 2016-11-23 21:33:59

在多行文本上用正则表达式匹配大写单词

问题描述

1 个解决方案

解决方案1 0 2016-11-23 21:33:59

解决方案1
0 2016-11-23 21:33:59