繁体 English 中英

如何在我的应用程序（Web或控制台）中进行类似Google的重新抓取

[英]How can I bring google-like recrawling in my application(web or console)

原文 2012-01-27 06:39:58 1 1 c#/ asp.net/ web-crawler

如何在我的应用程序（Web或控制台）中进行类似Google的重新抓取。 我只需要重新抓取那些在特定日期之后更新的页面。

System.Net.WebResponse中的LastModified标头仅提供服务器的当前日期。 例如，如果我在2012年1月27日下载了一个带有HTTPWebRequest的页面，并检查LastModified日期的标题，则显示服务页面时服务器的当前时间。 在这种情况下，它只是2012年1月27日。

谁能建议任何其他方法？

1 个解决方案

首先，要指出的是，你要做的事情非常困难，并且有很多研究级别的论文试图解决它（我稍后会给你链接其中的一些）。 虽然您可以使用快捷方式，例如从响应标头检查Content-Length而不下载页面的其余部分，但无法查看网站是否已更改而未对其进行爬网。 这将允许您的系统节省流量，但它不会以非常有用的方式解决您的问题。

其次，既然你关注内容，那么Last-Modified标题字段对你来说不是很有用，我甚至会说它根本不会有用。

第三，你所描述的内容有一些相互冲突的要求，因为你只对抓取已更新内容的网页感兴趣，而这与Google的工作方式不完全相同（但是，你需要类似Google的抓取）。 谷歌的抓取重点是为最常搜索/访问过的网站提供最新鲜的内容。 例如：Google很少有兴趣频繁抓取每天两次更新其内容的网站，当时该网站每天有10位访问者，而Google则更有兴趣抓取每天获得1000万访问者的网站，即使其内容更新不太常见。 经常更新其内容的网站也可能拥有大量访问者，但从谷歌的角度来看，这并不完全相关。

如果你必须发现新的网站（报道），同时你想获得你所知道的网站的最新内容（新鲜度），那么你就会有相互冲突的目标（大多数抓取工具，甚至谷歌都是这样）。 通常最终会发生的事情是，当你有更多的报道时，你的新鲜感会降低，如果你有更多的新鲜感，那么你的报道就会减少。 如果你有兴趣平衡两者，那么我建议你阅读以下文章：

这个想法的总结是你必须多次（可能几百次）抓取一个网站，以便你建立一个很好的历史记录。 一旦你有了一套很好的历史测量数据，那么你就可以使用预测模型来插入网站何时会再次更改，并在预期的更改后安排爬行一段时间。

如何修改它以具有类似Google的页面调度？

[英]How can I modify this to have a Google-like paging?

如何在WPF应用程序中使用C＃制作类似Google的自动完成文本框？

[英]How to make a google-like auto complete textbox with C# in a WPF application?

在这种情况下，如何显示控制台应用程序的控制台？

[英]How can I show the console of my console application in this scenario?

如何将表单值（例如电子邮件，姓名，电话等）从C＃控制台应用程序传递到任何网站？

[英]How can I pass form values like email, name, phone etc from my C# console application to any website?

如何将“数据”与控制台应用程序分开？

[英]How can I separate “Data” from my console application?

如何在控制台应用程序中使用计时器？

[英]How can I use a timer in my console application?

类似Google的搜索查询标记化和字符串拆分

[英]Google-like search query tokenization & string splitting

如何将Web服务添加到Web应用程序？

[英]How can i add web service to my web application?

C＃：我想像文件路径一样将消息传递给我的表单应用程序，比如控制台应用程序，我该怎么做？

[英]C#: I want to pass messages like a file path to my forms application like a console application, how would I do that?

我可以在 IIS 中托管我的控制台应用程序吗？

[英]Can I host my console application in IIS?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何修改它以具有类似Google的页面调度？如何在WPF应用程序中使用C＃制作类似Google的自动完成文本框？在这种情况下，如何显示控制台应用程序的控制台？如何将表单值（例如电子邮件，姓名，电话等）从C＃控制台应用程序传递到任何网站？如何将“数据”与控制台应用程序分开？如何在控制台应用程序中使用计时器？类似Google的搜索查询标记化和字符串拆分如何将Web服务添加到Web应用程序？ C＃：我想像文件路径一样将消息传递给我的表单应用程序，比如控制台应用程序，我该怎么做？我可以在 IIS 中托管我的控制台应用程序吗？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM