使用URL获取页面主要内容

Question

我需要能够从某个URL获取页面主要内容。 关于我需要做的一个很好的例子如下： http : //embed.ly/docs/explore/preview?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F08%2F20%2Fworld% 2Fmeast％2Fflight恐惧症男孩长的路回家％2Findex.html％3Fiid％3Darticle_sidebar

我正在使用C＃语言使用asp.net。

Answer 1

解析html页面并猜测主要内容并非易事。 我建议使用NReadability和HtmlAgilityPack

这是一个如何完成的示例。 NReadability对页面进行转码后，主文本始终位于id为readInner div 。

string url = "http://.......";

var t = new NReadability.NReadabilityWebTranscoder();
bool b;
string page = t.Transcode(url, out b);

if (b)
{
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.LoadHtml(page);

    var title = doc.DocumentNode.SelectSingleNode("//title").InnerText;
    var text = doc.DocumentNode.SelectSingleNode("//div[@id='readInner']")
                  .InnerText;
}

Answer 2

男人，

我猜它是使用WebClient Class或WebRequest Class的实现而制成的。 使用它，您可以下载页面的所有内容，然后使用任何数据挖掘算法来获取所需的信息。

[]的

使用URL获取页面主要内容

问题描述

2 个解决方案

解决方案1
4 已采纳 2012-08-21 14:56:12

解决方案2
0 2012-08-21 14:57:12

使用URL获取页面主要内容

问题描述

2 个解决方案

解决方案1 4 已采纳 2012-08-21 14:56:12

解决方案2 0 2012-08-21 14:57:12

解决方案1
4 已采纳 2012-08-21 14:56:12

解决方案2
0 2012-08-21 14:57:12