繁体 English 中英

在Java中的分布式体系结构上实现Web爬网程序

[英]Implementing Web Crawler on a distributed architecture in Java

原文 2013-02-26 06:08:20 2 1 java/ multithreading/ web-crawler/ distributed-computing

朋友们，我已经实现了在Java中的多线程网络爬虫。 为了提高效率，我想将其转换为分布式架构，即在3台计算机上。 据我搜索，主从架构是最好的。 任何人都可以提供一些洞察力，以了解最好的架构是什么以及如何用Java实现它？

您可以为每个要爬网的域计算哈希码，然后使用该哈希值来确定哪个节点应对该域进行爬网。 这样，所有节点都可以并行工作而无需太多交互。

您还需要一些代码在爬网完成后或定期合并爬网的结果。 也许最好只是从节点复制一些生成的归档文件并在中央位置进行处理。

虚拟机云看起来像是一个不错的部署平台，因为爬网不会占用大量CPU或内存。

在Java Web爬网程序中实现线程

[英]Implementing Threads Into Java Web Crawler

[英]Implementing a multi-threaded web crawler with Java's ReadWriteLocks

[英]Fastest architecture for multithreaded web crawler

[英]Java distributed architecture and versioning

[英]Multithreaded Web Crawler in Java

[英]Java Web crawler and scraper

[英]Java Web Crawler Libraries

[英]Web Crawler Java

[英]Creating a Web Crawler in Java EE

[英]How to design a web crawler in Java?

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Java Web爬网程序中实现线程使用 Java 的 ReadWriteLocks 实现多线程 web 爬虫多线程网络爬虫的最快架构 Java分布式架构和版本控制 Java中的多线程Web爬网程序 Java Web 爬虫和爬虫 Java Web Crawler库网络爬虫Java 在Java EE中创建Web爬网程序如何在Java中设计一个web爬虫？

相关标签