繁体   English   中英

从网站抓取数据

[英]Data crawling from websites

我是这类问题的新手,因此我对从网站爬网的数据有疑问。 我需要从某个网站检索数据,因为我知道可以以csv或xls文件的形式检索数据。 但是,如何获取网址进行下载?

例如,我要开一家服装店,查看所有商品,是以某种方式以文件(csv或其他)形式接收此数据的方法?还是我需要以某种方式解析html?

学习基础

第一:这一切都取决于网站的类型(静态/动态)和要求(您想要在记录中获取和提取什么样的数据)。

第二个也是重要的一个:您需要学习如何以您喜欢的语言进行网络请求。 另外,如何序列化/反序列化各种文件格式的数据。

这是X Wang撰写的有关创建Java爬网程序的精彩文章:

http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/

它应该使您开始自己的目标。

希望能帮助到你!

对我来说,我建议您使用网络抓取工具,因为它更容易,更方便。 如果您以前没有使用过其他任何网络抓取工具,建议您直接使用网络抓取工具。 它可以帮助您根据需要将网站数据提取为Excel或CSV格式。 如果您有兴趣,可以查看此案例教程以了解更多信息。 将数据从Airbnb抓取到Excel

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM