簡體   English   中英

在多行文本上用正則表達式匹配大寫單詞

[英]Matching words in uppercase with Regular expression on a text with multiple lines

我刮了幾篇文章,並將它們收集到一個文本文件中。 從這些文章中,我想提取所有大寫的單詞:

這是所收集文章之一的樣本:

"|[<p>Advertisement ,   By  Milan Schreur  and     Alissa J. Rubin    OCT. 5, 2016 
 ,  BRUSSELS — A man wounded two police officers with a knife in Brussels around noon on Wednesday in what the authorities called “a potential terrorist attack.” , ....]"

我要提取的是在大寫鎖定中鍵入的所有單詞,在這種情況下,單詞“ BRUSSELS”,但是在文件中還有很多。 因此,我想提取所有完全由大寫字母組成的單詞。

我嘗試過這樣的事情:

import re 

text_open = open("Training_News_6.csv")
text_read = text_open.read()
articles = text_read.split("<p>")
pattern = re.findall("\s[A-Z]{4,}\s",'\n'.join(articles))
print(pattern)

在完成text_read.split之后, articles是一個列表。 re.findall需要一個字符串。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM