繁体   English   中英

如何将使用javascript的网页转换为纯HTML?

[英]How can I convert web page with javascript to plain html?

我想将一些使用javascript的网页转换为纯html,然后发现了几种方法(请告诉我是否错误):

  1. 以Jython为例: http : //blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
  2. 将Java与htmlunit一起使用
  3. 使用代理,例如: http : //grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
  4. 将python与qt或PyV8一起使用

因为我想制作一个微型工具来满足我的要求,并且我认为安装V8和qt有点复杂,尽管python是我的首选。

所以我试图用壁虎做代理,但是似乎需要一个在远程Linux服务器上买不起的DISPLAY。

现在,我正在尝试使用jython,但是似乎没有简单的方法可以将整个页面转换为纯HTML。

其实,我想问问有没有办法像浏览器一样将包含javascript的网页转换为纯html。 node.js可以完成这项工作吗?

我最近在PhantomJS之上构建了一个服务器来执行此操作。 我强烈推荐这条路线。

http://phantomjs.org/

基本上,您编写了一个使PhantomJS运行页面的快速脚本,并配置了一个触发方法,该方法使您知道页面已完成并发送数据。 我的版本使用内置的HTTP服务器,因此PhantomJS可以轻松地自行提供结果。 这大约需要15行代码。 (对不起,不能在这里粘贴它……在工作时间写出来。但是,请在他们的主页上查看示例。它几乎完成了!)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM