如何使用 C# 获取网站的文本？

Question

我试图在没有任何源代码的情况下从网站中获取文本。

我有这段代码：

HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create("http://www.google.com");
myRequest.Method = "GET";
WebResponse myResponse = myRequest.GetResponse();
StreamReader sr = new StreamReader(myResponse.GetResponseStream(), System.Text.Encoding.UTF8);
string result = sr.ReadToEnd();
sr.Close();
myResponse.Close();
Console.WriteLine(result);

当然，哪一个会给我文本以及源代码。 我应该如何处理源代码？

Answer 1

我建议使用 HTML 解析器，例如HTML Agility Pack - 将文档加载到其中后，您可以使用其InnerText属性从顶部节点提取文本。

Answer 2

如果您使用PuppeteerSharp，则无需所有 HTTP 请求即可完成。

await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultChromiumRevision);
var HeadlessBrowser = await Puppeteer.LaunchAsync(new LaunchOptions
{
    Headless = true
});
var WebPage = await HeadlessBrowser.NewPageAsync();
await WebPage.GoToAsync({URL HERE});
var PageContent = await WebPage.EvaluateExpressionAsync<string>("document.body.innerText");
await HeadlessBrowser.CloseAsync();
Console.WriteLine(PageContent)

您还可以更改代码以使其更加精简和简单，但这是它的基本要点。

如何使用 C# 获取网站的文本？

问题描述

2 个解决方案

解决方案1
4 2012-01-15 12:13:42

解决方案2
0 2023-06-09 04:56:57

如何使用 C# 获取网站的文本？

问题描述

2 个解决方案

解决方案1 4 2012-01-15 12:13:42

解决方案2 0 2023-06-09 04:56:57

解决方案1
4 2012-01-15 12:13:42

解决方案2
0 2023-06-09 04:56:57