C＃HtmlAgilityPack-刮

Question

我想使用HtmlAgilityPack从GSMArena.com抓取内容，具体地说，我要抓取手机的技术规格。

期望的结果：

问题：几乎所有模型之间的节点路径都会不同。

我的问题：

如何搜寻才能抓取？ 例如，如果我想刮擦产品重量，是否可以告诉HTMLAgilityPack搜索标签，然后转到其后的TD，然后刮擦该TD的内部文本？

Answer 1

XPath是您的朋友。 在这里学习。 （如果出现链接腐烂，请使用Google XPath 1.0教程）

对于该文档：

   string weight= doc.DocumentNode.SelectSingleNode(@"//td[a[contains(text(),'Weight')]]/following-sibling::td").InnerText;

会减轻体重。

XPath的解释：对于所有节点（//），选择“ td”元素，其中包含一个包含文本“ Weight”的“ a”元素，然后选择以下“ td”节点。