繁体   English   中英

从HTML字符串中提取数据的库

[英]Library to extract data from html string

是否有任何免费/开源c#库可从html提取数据?

鉴于以下输入

<div style="...">
 text part 1
</div>
<div style="...">
 text part 2
</div>

我希望输出为:

text part 1 text part 2

是的,您可以使用HtmlAgilityPack使用Xpath查询来解析HTML,就好像它是XML。

您可以使用HtmlAgilitiPack很好的库。

接着:

public string StripHTMLTags(string str)
        {
            StringBuilder pureText = new StringBuilder();
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(str);

            foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
            {
                pureText.Append(node.InnerText);
            }

            return pureText.ToString();
        }

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM