繁体 English 中英

如何处理Java Web爬网程序中多个线程的内存不足错误

[英]How to handle OUT OF MEMORY error for multiple threads in a Java Web Crawler

原文 2009-07-18 00:10:29 9 3 java/ out-of-memory

我是编程的新手，正在为我的Web爬虫撰写论文。 我已经由网络爬虫提供了服务，但是我发现它太慢了，因为它是单线程的。 花费了30分钟来抓取1000个网页。 我尝试创建多个线程来执行，同时使用20个线程同时运行1000个网页仅用了2分钟。 但是现在我遇到了“堆内存不足”错误。 我确定我做错了，这是为20个线程创建一个for循环。 在不显示错误的情况下，对Java搜寻器进行多线程处理的正确方法是什么？ 说到哪个，多线程解决了我的问题？

3 个解决方案

我的第一个建议是增加JVM的堆大小：

http://www.informix-zone.com/node/46

简单的答案（请参见上文）是增加JVM内存大小。 这将有所帮助，但实际的问题很可能是您的Web爬网算法正在创建内存中的数据结构，该结构与您访问的页面数成正比。 如果是这样，解决方案可能是将该数据结构中的数据移动到磁盘上。 例如数据库。

解决问题的最合适方法取决于网络搜寻器的工作方式，正在收集的内容以及需要搜寻的页面数量。

关于程序的速度：

如果您的网络爬虫遵循服务器上的robots.txt文件（应避免被站点管理员禁止），那么可能几乎无能为力。

您应该对程序进行概要分析，但是我希望大多数时候都是您的爬虫在下载html页面，并且如果您下载得如此之快而耗尽其带宽，站点管理员通常会不满意。

总而言之，下载整个站点而不损害该站点将花费一些时间。

在Java Web爬网程序中实现线程

[英]Implementing Threads Into Java Web Crawler

如何使用Java处理具有多线程和持久性的内存数据

[英]How to handle in memory data with multiple threads and persistence in Java

如何处理java中设置的哈希值的内存不足错误

[英]how to handle out of memory error for Hash set in java

如何在Java中设计一个web爬虫？

[英]How to design a web crawler in Java?

如何处理JFrame中多个Java线程的终止和暂停？

[英]How to handle termination and suspension of multiple Java Threads in JFrame?

如何设置简单的JAVA Web爬虫的深度

[英]How to set depth of simple JAVA web crawler

Java中的多线程Web爬网程序

[英]Multithreaded Web Crawler in Java

Java Web 爬虫和爬虫

[英]Java Web crawler and scraper

Java Web Crawler库

[英]Java Web Crawler Libraries

网络爬虫Java

[英]Web Crawler Java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Java Web爬网程序中实现线程如何使用Java处理具有多线程和持久性的内存数据如何处理java中设置的哈希值的内存不足错误如何在Java中设计一个web爬虫？如何处理JFrame中多个Java线程的终止和暂停？如何设置简单的JAVA Web爬虫的深度 Java中的多线程Web爬网程序 Java Web 爬虫和爬虫 Java Web Crawler库网络爬虫Java

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM