繁体   English   中英

从PHP网站提取数据-复制数据库

[英]Pull Data from PHP site - Replicate database

有一个基于PHP的网站,我想从中复制数据。

问题在于该网站的数据只能通过公司名称搜索页-www.example.com/companynamesearch.php进行访问

结果显示在同一URL下,因此它没有单独的公司名称URL来进行数据爬网。

谁能建议一种简单的方法来从站点提取数据?

谢谢

首先,您需要查询数据。 找出数据是否确实在此页面上,以及数据是否由@JonathanM建议通过AJAX输入。 您可以使用Fiddler之类的工具或浏览器的开发人员工具对此进行监视。

如果您发现数据通过AJAX传入,则一切就绪。 它可能是JSON,但可以是任何类型,因此请注意。

如果数据在此页面上,并且该页面由POST数据查询,则您将必须发出这些POST请求,然后解析该页面。 现在,不要自己做。 使用DOMDocument为您挖掘页面。 有关详细信息,请参见此问题: 如何在PHP中解析和处理HTML / XML?

如果您选择的语言是php,则应该查看curl的自动表单提交功能,这将使您能够自动执行内部搜索引擎的表单。

有一个有用的stackoverflow答案,这里使用curl和php自动填写表格

或者,您可以查看这些基本教程以开始使用: http : //phpsense.com/2007/php-curl-functions/ http://devzone.zend.com/160/using-curl-and-libcurl-with -php /

在PHP中使用curl可以节省大量时间,但是要警告,如果网站所有者不希望您抓取其网站,则可能会遇到困难。 当然,还有版权问题需要考虑,等等。

您是否尝试过搜索谷歌site:www.example.com 您可能会获得所有页面的列表。

他们可能已经提交了站点地图,或者Google可能找到了另一种方法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM