繁体   English   中英

我应该将哪个jBoss和EJB3功能用于Web Crawler

[英]Which jBoss and EJB3 features should I use for Web Crawler

大家新年快乐,现在我正在尝试开发自己的机器人( 网络爬虫 ),该机器人将通过Internet遍历搜索引擎。 我正在考虑使用jboss scheduler-service来安排bot和类似的东西来获取内容:

URL u = new URL("http://www.google.kz");
  InputStream in = u.openStream();

我想问一下我应该使用哪些EJB3或jBoss功能来有效地(正确地)开发我的机器人? 我是EJB3和jBoss的新手。

如果你有更好的想法,你可以在这里。我正在开发搜索引擎来练习我的Java技能和学术问题,我不打算与谷歌竞争:)

  • jboss-5.1.0.GA
  • XP
  • EJB3
  • 日蚀太阳神

PS:我还没有决定如何解析html,我正在考虑类似“ 解析HTML”的内容 你能推荐什么?

您根本不需要EJB或JBoss。 实际上,我几乎无法想到将它们用于网络爬虫。 只有当您使用JPA存储爬网结果时,您才可以使用容器管理的事务,并自动注入JPA实体管理器。 除此之外 - 没有。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM