[英]Extracting data from javascript webpages
我需要建立一个从网页集合中提取大量数据的系统。 这些网站中的很多(mayabe 90%左右)都由各种不同的javascript系统提供支持。 我想知道什么是提取此数据最有效的方法?
由于每个站点都不相同,因此我正在寻找一种灵活的解决方案,并且由于有许多站点,我正在寻找一种解决方案,该解决方案将对我的网络造成的压力尽可能小。
我大部分的编程经验是C,C ++和Perl,但是我很高兴能提供最好的结果。
这些网页不断更新我希望提取并进行分析的数字和统计信息,因此我需要能够轻松地将它们存储在数据库中。
我已经做了一些自己的研究,但是我在这里真的空白了。 我希望其他人可以帮助我! :)
也许您应该尝试PHP DOMDocument类。 例如,此代码将“窃取” URL中的所有表标记。
$data=array();
$url='your.site.com';
$out=file_get_contents($url);
$dom=new DOMDocument();
$dom->loadHTML($out);
foreach($dom->getElementsByTagName('table') as $table){
data[]=$table->nodeValue;
}
print_r($data);
您可以获取和操作所有DOM并解析所有html文档。 考虑使用AJAX方法异步调用此脚本。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.