簡體   English   中英

如何開始構建基於Java的Web抓取工具

[英]How to start building a java based web-scraping tool

什么是最好(和最短)的方式來開始構建一個網絡抓取工具,它足夠靈活,可以與幾乎所有類型的網站一起使用,並能夠將這些網站存儲在數據庫中進行檢索。

我想構建類似於“谷歌搜索”的東西,其中“谷歌搜索”在進行搜索之前將所有網站緩存到他們的服務器。

這是我研究項目的組成部分之一。

如果已經有一些開源項目,請告訴我,這將使我的任務更容易。

我更喜歡java來構建它。

heritrix這樣的東西?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM