繁体   English   中英

AngleSharp 解析

[英]AngleSharp Parsing

当您没有要使用的类名或 id 时,找不到许多使用 AngleSharp 进行解析的示例。

HTML

<span><a href="google.com" title="Google"><span class="icon icon_none"></span></a></span>
<span><a href="bing.com" title="Bing"><span class="icon icon_none"></span></a></span>
<span><a href="yahoo.com" title="Yahoo"><span class="icon icon_none"></span></a></span>

我想从任何具有标题 = Bing 的<a>标签中找到 href

在 Python BeautifulSoup 中,我会使用

item_needed = a_row.find('a', {'title': 'Bing'})

然后获取 href 属性

或 jQuery

a[title='Bing']

但是,我坚持使用 AngleSharp 例如。 以下示例https://github.com/AngleSharp/AngleSharp/wiki/Examples#getting-certain-elements

c#AngleSharp

var parser = new AngleSharp.Parser.Html.HtmlParser();
var document = parser.Parse(@"<span><a href=""google.com"" title=""Google""><span class=""icon icon_none""></span></a></span>< span >< a href = ""bing.com"" title = ""Bing"" >< span class=""icon icon_none""></span></a></span><span><a href = ""yahoo.com"" title=""Yahoo""><span class=""icon icon_none""></span></a></span>");

//Do something with LINQ
var blueListItemsLinq = document.All.Where(m => m.LocalName == "a" && //stuck);

看起来您的 HTML 标记存在问题,导致 AngleSharp 无法找到目标元素,即尖括号周围的空格:

< span >< a href = ""bing.com"" title = ""Bing"" >< span class=""icon icon_none"">

修复 HTML 后,LINQ 和 CSS 选择器都成功选择了目标链接:

var parser = new AngleSharp.Parser.Html.HtmlParser();
var document = parser.ParseDocument(@"<span><a href=""google.com"" title=""Google""><span class=""icon icon_none""></span></a></span><span><a href = ""bing.com"" title = ""Bing""><span class=""icon icon_none""></span></a></span><span><a href = ""yahoo.com"" title=""Yahoo""><span class=""icon icon_none""></span></a></span>");

//LINQ example
var blueListItemsLinq = document.All
                                .Where(m => m.LocalName == "a" && 
                                            m.GetAttribute("title") == "Bing"
                                       );

//LINQ equivalent CSS selector example
var blueListItemsCSS = document.QuerySelectorAll("a[title='Bing']");

//print href attributes value to console
foreach (var item in blueListItemsCSS)
{
    Console.WriteLine(item.GetAttribute("href"));
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM