[英]Data crawling from websites
我是这类问题的新手,因此我对从网站爬网的数据有疑问。 我需要从某个网站检索数据,因为我知道可以以csv或xls文件的形式检索数据。 但是,如何获取网址进行下载?
例如,我要开一家服装店,查看所有商品,是以某种方式以文件(csv或其他)形式接收此数据的方法?还是我需要以某种方式解析html?
学习基础
第一:这一切都取决于网站的类型(静态/动态)和要求(您想要在记录中获取和提取什么样的数据)。
第二个也是重要的一个:您需要学习如何以您喜欢的语言进行网络请求。 另外,如何序列化/反序列化各种文件格式的数据。
这是X Wang撰写的有关创建Java爬网程序的精彩文章:
http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/
它应该使您开始自己的目标。
希望能帮助到你!
对我来说,我建议您使用网络抓取工具,因为它更容易,更方便。 如果您以前没有使用过其他任何网络抓取工具,建议您直接使用网络抓取工具。 它可以帮助您根据需要将网站数据提取为Excel或CSV格式。 如果您有兴趣,可以查看此案例教程以了解更多信息。 将数据从Airbnb抓取到Excel
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.