C＃只提取html

Question

基本上我有一個嵌入了CSS和JavaScript的網頁，所以我想要做的只是提取HTML本身，從文本到表格，圖像和什么不是。

到目前為止，我將整個網頁存儲到一個名為“html”的字符串中，例如，這個頁面的內容只是facebook hompepage，但正如您將看到的那樣，我不想擁有所有腳本和其他嵌入的東西。

   HTMLEdit = //webpage I chose to store in here//
   string html = HTMLEdit.DocumentText;
   String result = "this i want to only contain the <head>,<body>,<foot>."

我只對顯示結果只對包含html，我不想要JavaScript或CSS或任何其他東西感興趣

我看過敏捷包，但是那里沒有關於這個網站的文檔來做這個，這是我決定做的第一個c＃項目，所以請原諒我的無知，如果我沒有意義的話。

Answer 1

請參閱此問題HTML Agility Pack strip標簽NOT IN白名單

也許適應那個答案，並刪除鏈接和腳本標簽。

C＃只提取html

問題描述

1 個解決方案

解決方案1
2 已采納 2012-03-31 13:46:13

C＃只提取html

問題描述

1 個解決方案

解決方案1 2 已采納 2012-03-31 13:46:13

解決方案1
2 已采納 2012-03-31 13:46:13