簡體   English   中英

獲取網頁並保存在數據庫中?

[英]Fetch a Web Page and save in Database?

如何獲取HTML頁面並將其保存到JAVA中的數據庫?有沒有簡單的方法可以做到這一點?

使用URL類通過http接收文件非常簡單:

String rawHtml = IOUtils.toString(new URL("http://yahoo.com").openStream());

IOUtils取自org.apache.commons.io,toString方法將整個輸入流讀入一個String。 不幸的是,通過使用java.net.URL除了網站的地址之外你無法控制任何東西(cookie,標題信息......): - /就個人而言,我使用這種方法,因為HttpClient的API過於復雜(太多LOC)只需檢索網站的源代碼即可。

不確定您的確切要求。

對於簡單的東西,你可以使用HttpClient

對於更復雜的東西,你可以使用Nutch它也可以進行爬行,索引和搜索。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM