[英]C# - Get the text inside tags using HTML Agility Pack
我使用以下代碼來解析HTML文檔並將其存儲為CSV文件。
string actuald=null;
string data1 = File.ReadAllText("E://text.html");
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(data1);
HtmlNodeCollection col = doc.DocumentNode.SelectNodes("//pre");
foreach (HtmlNode node in col)
{
actuald=node.Attributes[""].Value;
}
File.WriteAllText("E://text.csv",actuald);
Console.WriteLine("Data Converted");
Console.ReadKey();
在html文檔中,我需要提取的內容位於<pre> </ pre>之間。 我文件的內容看起來像
<HTML><HEAD><TITLE>NCEDC_Search_Results</TITLE></HEAD><BODY>Your search parameters are:<ul>
<li>start_time=1973/01/01,00:00:00
<li>end_time=2037/01/01,00:00:00
<li>minimum_magnitude=3.0
<li>maximum_magnitude=10
<li>etype=E
<li>rflag=A,F,H,I
<li>system=selected
<li>format=ncread
</ul>
<PRE>
Date Time Lat Lon Depth Mag Magt Nst Gap Clo RMS SRC Event ID
----------------------------------------------------------------------------------------------
1973/01/01 06:59:19.23 36.8037 -121.5087 5.65 3.60 Md 28 35 6 0.09 NCSN 1013957
1973/01/01 07:57:39.65 37.0925 -121.5055 9.19 3.10 ML 45 90 5 0.07 NCSN 1013959
</pre></html>
但是在html doc中,我沒有在任何html標記下指定任何類? 我應該在attribute [“”]中提供什么內容?
要在節點內獲取文本:
actuald = node.InnerText;
獲取包含HTML標簽的文本
actuald = node.InnerHtml;
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.