簡體   English   中英

C#只提取html

[英]C# extracting html only

基本上我有一個嵌入了CSS和JavaScript的網頁,所以我想要做的只是提取HTML本身,從文本到表格,圖像和什么不是。

到目前為止,我將整個網頁存儲到一個名為“html”的字符串中,例如,這個頁面的內容只是facebook hompepage,但正如您將看到的那樣,我不想擁有所有腳本和其他嵌入的東西。

   HTMLEdit = //webpage I chose to store in here//
   string html = HTMLEdit.DocumentText;
   String result = "this i want to only contain the <head>,<body>,<foot>."

我只對顯示結果只對包含html,我不想要JavaScript或CSS或任何其他東西感興趣

我看過敏捷包,但是那里沒有關於這個網站的文檔來做這個,這是我決定做的第一個c#項目,所以請原諒我的無知,如果我沒有意義的話。

請參閱此問題HTML Agility Pack strip標簽NOT IN白名單

也許適應那個答案,並刪除鏈接和腳本標簽。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM