如何從python（regex）的文本中提取圖像

Question

假設我們有文本，其中圖像以以下形式存儲：

some text File:image1.extension some text File:image2.extension

如何從python文本中提取所有圖像？

我試過了

re.findall('File:(.+?\.(jpe?g|svg|png|gif))', text, re.IGNORECASE)

但這並沒有完成。

https://regex101.com/r/PLKREz/3

如何在Python中完成？

Answer 1

如果您的原始字符串raw_string類似於：

File:image1.png
File:image1.pdf
File:image1.gif
File:image1.txt
File:image1.jpeg

然后，您可以使用正則表達式File:.+?\\.((pdf)|(png)|(gif)|(jpeg)) 。 在Python中變成：

re.findall(r'File:.+?\.((pdf)|(png)|(gif)|(jpeg))', raw_string)

這只會檢索您在外部括號內指定的文件格式，以|分隔| 運算符，在此示例中，除文件以.txt結尾的所有內容。

Answer 2

您可以使用

regex = r"\[\[File:(\S+\.(?:jpe?g|png|[tg]iff?|svg))"

模式匹配

\\[\\[File: -兩個[ s和一個File:子字符串
(\\S+\\.(?:jpe?g|png|[tg]iff?|svg)) -捕獲到組1中（因此，僅作為re.findall的結果返回此子re.findall ）
- \\S+ -1個或多個非空白字符
- \\. -一個點
- (?:jpe?g|png|[tg]iff?|svg) -非捕獲組內部的替代方法之一（這樣它就不會在re.findall結果中輸出）： jpeg ， jpg ， tiff ， gif （甚至giff ）或svg 。