繁体   English   中英

抓取需要触发javascript的外部网站

[英]scrape external website that requires javascript being triggered

由于phantomjs被放弃,我想知道是否还有其他方法。 例如chrome-webdriver并不是一个好的解决方案,因为它无法在诸如heroku之类的远程主机上运行。

因此,是否有可能以某种方式抓取需要首先触发javascript的外部网站? 注意,应该可以从nodejs应用程序运行它。

我已经准备好为您准备一些东西,然后我想到了更好的方法并用谷歌搜索了它。 查看此构建脚本; 它似乎完全可以回答您的问题。

https://github.com/stomita/heroku-buildpack-phantomjs

设置一个git分支,如果需要的话,将其拉到本地,但这应该可行。 基本上,您需要下载二进制文件,然后远程下载并运行“ heroku run'phantomjs'”或“ heroku run'bin / phantomjs'”

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM