[英]How to extract images from a Text in python (regex)
假設我們有文本,其中圖像以以下形式存儲:
some text File:image1.extension some text File:image2.extension
如何從python文本中提取所有圖像?
我試過了
re.findall('File:(.+?\.(jpe?g|svg|png|gif))', text, re.IGNORECASE)
但這並沒有完成。
https://regex101.com/r/PLKREz/3
如何在Python中完成?
如果您的原始字符串raw_string
類似於:
File:image1.png
File:image1.pdf
File:image1.gif
File:image1.txt
File:image1.jpeg
然后,您可以使用正則表達式File:.+?\\.((pdf)|(png)|(gif)|(jpeg))
。 在Python中變成:
re.findall(r'File:.+?\.((pdf)|(png)|(gif)|(jpeg))', raw_string)
這只會檢索您在外部括號內指定的文件格式,以|
分隔|
運算符,在此示例中,除文件以.txt
結尾的所有內容。
您可以使用
regex = r"\[\[File:(\S+\.(?:jpe?g|png|[tg]iff?|svg))"
模式匹配
\\[\\[File:
-兩個[
s和一個File:
子字符串 (\\S+\\.(?:jpe?g|png|[tg]iff?|svg))
-捕獲到組1中(因此,僅作為re.findall
的結果返回此子re.findall
)
\\S+
-1個或多個非空白字符 \\.
-一個點 (?:jpe?g|png|[tg]iff?|svg)
-非捕獲組內部的替代方法之一(這樣它就不會在re.findall
結果中輸出): jpeg
, jpg
, tiff
, gif
(甚至giff
)或svg
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.