正则表达式提取文件名的一部分

Question

我想提取包含在 xml 字符串中的文件名的一部分

样本

<assets>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf7.JPG"  valign="top"/>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf5.JPG"  valign="top"/>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf4.JPG"  valign="top"/>
</assets>

无论文件名如何，我都想从所有条目中匹配并检索560PEgnR部分

到目前为止我有

/assets/(.*)/*"

但它没有做我想要的

任何帮助表示赞赏

谢谢

Answer 1

或者...

/assets/([^/])+/

Answer 2

你应该尝试：

/assets/(.*?)/.*

.*很好，但使用? 它停在第一个/ 。

Answer 3

有几种选择。 您的错误是您的。* 部分还包含“/”，因此要么减少贪婪（如上面建议的 hsz），要么像/assets/([^/]*).*这样从匹配组中排除“/” /assets/([^/]*).* .

Answer 4

非正则表达式方法

>>> string="""
... <assets>  
... <media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf7.JPG"  valign="top"/>
... <media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf5.JPG"  valign="top"/>
... <media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf4.JPG"  valign="top"/>
... </assets>                                                                                  
... """           

>>> for line in string.split("\n"):
...     if "/assets/" in line:
...         print line.split("/assets/")[-1].split("/")[0]
...
560PEgnR
560PEgnR
560PEgnR

Answer 5

正确解析 XML 并避免不必要地使用正则表达式：

from lxml import etree

xml = """
<assets>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf7.JPG"  valign="top"/>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf5.JPG"  valign="top"/>
<media width="100%" height="100%" img="/assets/560PEgnR/kVvNKfOX7w9tf4.JPG"  valign="top"/>
</assets>
"""

xmltree = etree.fromstring(xml)

for media in xmltree.iterfind(".//media"):
    path = media.get('img')
    print path.split('/')[-2]

给出：

560PEgnR
560PEgnR
560PEgnR

正则表达式提取文件名的一部分

问题描述

5 个解决方案

解决方案1
4 2011-04-29 11:21:07

解决方案2
3 已采纳 2011-04-29 11:17:34

解决方案3
2 2011-04-29 11:20:55

解决方案4
2 2011-04-29 11:27:04

解决方案5
1 2011-04-29 11:48:11

正则表达式提取文件名的一部分

问题描述

5 个解决方案

解决方案1 4 2011-04-29 11:21:07

解决方案2 3 已采纳 2011-04-29 11:17:34

解决方案3 2 2011-04-29 11:20:55

解决方案4 2 2011-04-29 11:27:04

解决方案5 1 2011-04-29 11:48:11

解决方案1
4 2011-04-29 11:21:07

解决方案2
3 已采纳 2011-04-29 11:17:34

解决方案3
2 2011-04-29 11:20:55

解决方案4
2 2011-04-29 11:27:04

解决方案5
1 2011-04-29 11:48:11