繁体   English   中英

将HTML中的Javascript变量提取/解码为python

[英]Extract/decode Javascript variables from html into python

我正在尝试使用python从HTML网站中提取一些javascript变量:

<script>
var nData = new Array();
var Data = "5b7b......";
nData = CallInit(Data);
...
...
</script>

我可以在萤火虫(DOM面板)中看到“ nData”的内容,而不会出现问题:

[Object { height="532",  width="1280",  url="https://example.org...8EDA4F3F5F395B9&key=lh1",  more...}, Object { height="266",  width="640",  url="https://example.org...8EDA4F3F5F395B9&key=lh1",  more...}]

nData的内容是一个URL。 如何将nData的内容解析/提取到python? 这是可能的?

谢谢

借助python库Ghost.py ,应该可以从执行的Javascript代码中获取动态变量。

我只是在一些小型测试站点上进行了尝试,并得到了一个名为a的Javascript变量,该变量在该页面上用作python对象。 我做了以下工作:

  1. 使用pip install Ghost.py

  2. 使用pip install PySide安装PySide(这是Ghost.py的前提条件)。

  3. 使用以下python代码:

     from ghost import Ghost ghost = Ghost() ghost.open('https://dl.dropboxusercontent.com/u/13991899/test/index.html') js_variable, _ = ghost.evaluate('a', expect_loading=True) print js_variable 

通过使用ghost.open打开站点,然后调用ghost.evaluate('nData')应该可以将变量nData放入python变量js_variable

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM