HttpWebResponse编码

Question

尝试从google.com获取html时，编码出现问题。 请给我一个建议，以解决此问题。 非常感谢。

public string Html
    {
        get
        {
            try
            {
                var request = WebRequest.Create(Url) as HttpWebRequest;
                request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.83 Safari/537.1,gzip(gfe)";
                if (request != null)
                {
                    var response = request.GetResponse() as HttpWebResponse;
                    if (response != null)
                    {
                        string Charset = response.CharacterSet;
                        Encoding encoding = Encoding.GetEncoding(Charset);
                        var sr = new StreamReader(response.GetResponseStream(), encoding);
                        return sr.ReadToEnd();
                    }
                }
                return string.Format("Could not create object HttpWebRequest for '{0}'", Url);
            }
            catch (Exception e)
            {
                return e.Message;
            }
        }
    }

这也是一张图片：

在此处输入图片说明

Answer 1

您面临的问题是因为某种原因Google不在标头中发送任何编码信息。 如果您使用下面的链接检查标题（特别是Content-Type标题），然后将第一个标题（来自图像）与第二个标题进行比较，您会发现第一个标题缺少一些重要信息。

http://web-sniffer.net/?url=http://www.google.com.ua/intl/ils/ads/

http://web-sniffer.net/?url=http://www.google.de/

在这里您需要做的是首先解析返回的HTML，并寻找一个<meta>元素，该元素指定编码，然后使用该新信息重新编码获取的流。 取决于您之后对HTML的处理方式，您可能希望将http://htmlagilitypack.codeplex.com/作为使用HTML的出色库，或者只是编写一个正则表达式以提取编码（尽管我真的建议您而是第一种选择）。

HttpWebResponse编码

问题描述

1 个解决方案

解决方案1
1 已采纳 2012-08-26 10:17:42

HttpWebResponse编码

问题描述

1 个解决方案

解决方案1 1 已采纳 2012-08-26 10:17:42

解决方案1
1 已采纳 2012-08-26 10:17:42