繁体   English   中英

C#HtmlAgilityPack-刮

[英]C# HtmlAgilityPack - Scraping

我想使用HtmlAgilityPack从GSMArena.com抓取内容,具体地说,我要抓取手机的技术规格。

期望的结果:

http://www.gsmarena.com/nokia_lumia_520-5322.php我想刮一下重量,尺寸等

问题:几乎所有模型之间的节点路径都会不同。

我的问题:

如何搜寻才能抓取? 例如,如果我想刮擦产品重量,是否可以告诉HTMLAgilityPack搜索标签,然后转到其后的TD,然后刮擦该TD的内部文本?

XPath是您的朋友。 在这里学习。 (如果出现链接腐烂,请使用Google XPath 1.0教程)

对于该文档:

   string weight= doc.DocumentNode.SelectSingleNode(@"//td[a[contains(text(),'Weight')]]/following-sibling::td").InnerText;

会减轻体重。

XPath的解释:对于所有节点(//),选择“ td”元素,其中包含一个包含文本“ Weight”的“ a”元素,然后选择以下“ td”节点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM