[英]Library to extract data from html string
Is there any free/open source c# libraries to extract data from html? 是否有任何免费/开源c#库可从html提取数据?
Given the input below 鉴于以下输入
<div style="...">
text part 1
</div>
<div style="...">
text part 2
</div>
I want the output to be: 我希望输出为:
text part 1 text part 2
是的,您可以使用HtmlAgilityPack使用Xpath查询来解析HTML,就好像它是XML。
you can use HtmlAgilitiPack very good library. 您可以使用HtmlAgilitiPack很好的库。
and then: 接着:
public string StripHTMLTags(string str)
{
StringBuilder pureText = new StringBuilder();
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(str);
foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
{
pureText.Append(node.InnerText);
}
return pureText.ToString();
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.