[英]C# HtmlAgilityPack - Scraping
我想使用HtmlAgilityPack从GSMArena.com抓取内容,具体地说,我要抓取手机的技术规格。
期望的结果:
http://www.gsmarena.com/nokia_lumia_520-5322.php我想刮一下重量,尺寸等
问题:几乎所有模型之间的节点路径都会不同。
我的问题:
如何搜寻才能抓取? 例如,如果我想刮擦产品重量,是否可以告诉HTMLAgilityPack搜索标签,然后转到其后的TD,然后刮擦该TD的内部文本?
XPath是您的朋友。 在这里学习。 (如果出现链接腐烂,请使用Google XPath 1.0教程)
对于该文档:
string weight= doc.DocumentNode.SelectSingleNode(@"//td[a[contains(text(),'Weight')]]/following-sibling::td").InnerText;
会减轻体重。
XPath的解释:对于所有节点(//),选择“ td”元素,其中包含一个包含文本“ Weight”的“ a”元素,然后选择以下“ td”节点。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.