[英]How to start building a java based web-scraping tool
什么是最好(和最短)的方式來開始構建一個網絡抓取工具,它足夠靈活,可以與幾乎所有類型的網站一起使用,並能夠將這些網站存儲在數據庫中進行檢索。
我想構建類似於“谷歌搜索”的東西,其中“谷歌搜索”在進行搜索之前將所有網站緩存到他們的服務器。
這是我研究項目的組成部分之一。
如果已經有一些開源項目,請告訴我,這將使我的任務更容易。
我更喜歡java來構建它。
像heritrix這樣的東西?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.