[英]How to do a Python XPath case-insensitive search using lxml?
我试图在XPath中使用lower-case
函数匹配国家或国家。 translate
有点混乱,所以使用小写和我的Python版本2.6.6有XPath 2.0支持我相信,因为小写只在XPath 2.0中可用。
我如何能在我的案例中使用小写字符是我正在寻找的。 希望这个例子是自我解释的。 我正在寻找['USA', 'US']
作为输出(如果小写评估国家和国家是相同的话,这两个国家可以一次性发生)。
HTML:doc.htm
<html>
<table>
<tr>
<td>
Name of the Country : <span> USA </span>
</td>
</tr>
<tr>
<td>
Name of the country : <span> UK </span>
</td>
</tr>
</table>
Python:
import lxml.html as lh
doc = open('doc.htm', 'r')
out = lh.parse(doc)
doc.close()
print out.xpath('//table/tr/td[text()[contains(. , "Country")]]/span/text()')
# Prints : [' USA ']
print out.xpath('//table/tr/td[text()[contains(. , "country")]]/span/text()')
# Prints : [' UK ']
print out.xpath('//table/tr/td[lower-case(text())[contains(. , "country")]]/span/text()')
# Prints : [<Element td at 0x15db2710>]
更新:
out.xpath('//table/tr/td[text()[contains(translate(., "ABCDEFGHIJKLMNOPQRSTUVWXYZ", "abcdefghijklmnopqrstuvwxyz") , "country")]]/span/text()')
现在问题仍然存在,我可以将翻译部分存储为全局变量'handlecase'并在每次执行XPath时打印该全局变量吗?
像这样的东西有效:
handlecase = """translate(., "ABCDEFGHIJKLMNOPQRSTUVWXYZ", "abcdefghijklmnopqrstuvwxyz")"""
out.xpath('//table/tr/td[text()[contains(%s , "country")]]/span/text()' % (handlecase))
但为了简单和可读性,我想像这样运行它:
out.xpath('//table/tr/td[text()[contains(handlecase , "country")]]/span/text()')
我相信获得你想要的最简单的东西就是编写一个XPath扩展函数。
通过这样做,您可以编写lower-case()
函数或不区分大小写的搜索。
您可以在此处找到详细信息: http : //lxml.de/extensions.html
用途 :
//td[translate(substring(text()[1], string-length(text()[1]) - 9),
'COUNTRY :',
'country'
)
=
'country'
]
/span/text()
基于XSLT的验证 :
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:template match="/">
<xsl:copy-of select=
"//td[translate(substring(text()[1], string-length(text()[1]) - 9),
'COUNTRY :',
'country'
)
=
'country'
]
/span/text()
"/>
</xsl:template>
</xsl:stylesheet>
在提供的XML文档上应用此转换时:
<html>
<table>
<tr>
<td>
Name of the Country : <span> USA </span>
</td>
</tr>
<tr>
<td>
Name of the country : <span> UK </span>
</td>
</tr>
</table>
</html>
评估XPath表达式,并将选定的两个文本节点复制到输出:
USA UK
说明 :
ends-with($text, $s)
:这是: .....
$s = substring($text, string-length($text) - string-length($s) +1)
0.2。 下一步是使用translate()
函数将结束的10个字符的长字符串转换为小写,从而消除任何空格或任何“:”字符。
0.3。 如果结果是字符串(全部小写)“country”,那么我们选择此td
的s = span
子节点的子文本节点(在这种情况下只有一个)。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.