繁体 English 中英

从网站抓取数据

[英]Data crawling from websites

原文 2014-03-19 10:49:45 2 2 java/ csv/ web-crawler

我是这类问题的新手，因此我对从网站爬网的数据有疑问。 我需要从某个网站检索数据，因为我知道可以以csv或xls文件的形式检索数据。 但是，如何获取网址进行下载？

例如，我要开一家服装店，查看所有商品，是以某种方式以文件（csv或其他）形式接收此数据的方法？还是我需要以某种方式解析html？

2 个解决方案

学习基础

第一：这一切都取决于网站的类型（静态/动态）和要求（您想要在记录中获取和提取什么样的数据）。

第二个也是重要的一个：您需要学习如何以您喜欢的语言进行网络请求。 另外，如何序列化/反序列化各种文件格式的数据。

这是X Wang撰写的有关创建Java爬网程序的精彩文章：

http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/

它应该使您开始自己的目标。

希望能帮助到你！

对我来说，我建议您使用网络抓取工具，因为它更容易，更方便。 如果您以前没有使用过其他任何网络抓取工具，建议您直接使用网络抓取工具。 它可以帮助您根据需要将网站数据提取为Excel或CSV格式。 如果您有兴趣，可以查看此案例教程以了解更多信息。 将数据从Airbnb抓取到Excel

爬行网站以提取电子邮件

[英]Crawling websites to extract email

Jaxer的替代品，用于解析/爬行网站

[英]Replacement for Jaxer for parsing/crawling websites

从网站抓取数据的问题

[英]Issue with scraping data from websites

如何将通过 GeoCode（带 Radius）爬取的 Twitter 数据直接导入数据库？

[英]How to Import Twitter Data Directly Into Database from Crawling by GeoCode (with Radius)?

从多个网站抓取数据的最佳方式是什么？

[英]What is the best way to scrape data from from multiple websites?

从Web爬网数据，当页面在页面末尾动态加载数据时

[英]Crawling data from Web, When page loads data dynamically at end of page

从网站获取数据以获取android live score app

[英]Get Data from websites for android live score app

使用RxJava从3个不同的网站同步获取数据

[英]Get data from 3 different websites synchronously using RxJava

为什么 Web Scraper 不从该网站或类似网站获取数据？

[英]Why does the Web Scraper not fetch the data from this or similar websites?

如何同时从2个或更多网站获取数据？（Android应用程序）

[英]How to get data from 2 or more websites at the same time?(Android app)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 爬行网站以提取电子邮件 Jaxer的替代品，用于解析/爬行网站从网站抓取数据的问题如何将通过 GeoCode（带 Radius）爬取的 Twitter 数据直接导入数据库？从多个网站抓取数据的最佳方式是什么？从Web爬网数据，当页面在页面末尾动态加载数据时从网站获取数据以获取android live score app 使用RxJava从3个不同的网站同步获取数据为什么 Web Scraper 不从该网站或类似网站获取数据？如何同时从2个或更多网站获取数据？（Android应用程序）

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM