如何使用C＃将网页的HTML转储到文本文件？

Question

我正在做一个项目，在这个项目中，我需要能够以网站网址www.google.com为例，并在单独解析的文本文件中获取它的html，但我不知道该怎么做。

我知道有一种比我做起来更容易的方法，但这是一个旨在利用和增加知识的项目。

Answer 1

使用WebClient仅将单个URL下载到文件非常简单：

using (var client = new WebClient())
{
    client.DownloadFile(url, filename);
}

棘手的一点是，很少有真正由单个HTML组成的网页-大多数网页然后加载Javascript，或使用 Javascript加载更多数据，等等。

在.NET 4.5和以后你可能想使用HttpClient ，而不是WebClient -虽然这是异步的，（据我可以看到）不提供任何比较一样便利DownloadFile当这一切你想做的事。

Answer 2

您可以尝试HtmlAgilityPack：

string Url = "http://something";
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(Url);
string contents= doc.DocumentNode.OuterHtml;
File.WriteAllText("X:\abc\def.txt", contents);

Answer 3

C＃WebClient类可以帮助您实现这一目标：

using System;
using System.Net;
using System.IO;

    using (WebClient client = new WebClient())
    {
        string htmlCode = client.DownloadString("http://somesite.com/default.html");
        File.WriteAllText(@"c:\YourLocalFolder\somefile.txt", htmlCode);
    }

Answer 4

如果还有其他所有文件，则可以使用WebBrowser控件在应用程序中运行IE，这可以运行页面上的jscript等。然后，您可以从C＃访问DOM。

如何使用C＃将网页的HTML转储到文本文件？

问题描述

4 个解决方案

解决方案1
2 2015-02-03 07:22:13

解决方案2
0 2015-02-03 07:09:18

解决方案3
0 2015-02-03 07:29:07

解决方案4
0 2015-02-03 15:11:18

如何使用C＃将网页的HTML转储到文本文件？

问题描述

4 个解决方案

解决方案1 2 2015-02-03 07:22:13

解决方案2 0 2015-02-03 07:09:18

解决方案3 0 2015-02-03 07:29:07

解决方案4 0 2015-02-03 15:11:18

解决方案1
2 2015-02-03 07:22:13

解决方案2
0 2015-02-03 07:09:18

解决方案3
0 2015-02-03 07:29:07

解决方案4
0 2015-02-03 15:11:18