当javascript加载html的一部分时，http如何请求获取整个源页面？

Question

我等待从https://www.collinsdictionary.com/dictionary/english/supremacy获取 html web 页面，但部分 html 文件由javascript加载。 当我使用HTTP.jl获取带有HTTP.request()的 web 页面时，我只获取在运行 javascript 之前加载的javascript文件的一部分，因此 web 页面 I85550868988 页面 I868988 与 Chrome5658 不同. 如何获取和Chrome一样的web页面？ 我必须将WebDriver.jl与Selenium WebDriver的python 绑定一起使用吗？

我的来源的一部分：

function get_page(w::word)::Bool
    response = nothing
    try
        response = HTTP.request("GET", "https://www.collinsdictionary.com/dictionary/$(dictionary)/$(w.org_word)",
                                                 connect_timeout=connect_timeout, readtimeout=readtimeout, retries=retries, redirect=true,proxy=proxy)
    catch e
        push!(w.err_log, [get_page_http_err, string(e)])
        return falses
    end
    open("./assets/org_page.html", "w") do f 
        write(f, String(response.body))
    end
    return true
end

dictionary和w.org_word都是String ， function 在一个module中。

Answer 1

仅用HTTP.jl是不可能实现您想要的。 运行页面的 Javascript 部分根本不同——您需要一个 Javascript 引擎来执行此操作，这并不简单。

这不是 Julia 的 HTTP 的独特弱点： Python requests.get(url) 返回 javascript 代码而不是页面 html

（最近python中的标准库request好像增加了Javascript渲染能力）

当javascript加载html的一部分时，http如何请求获取整个源页面？

问题描述

1 个解决方案

解决方案1
1 2021-10-10 12:53:29

当javascript加载html的一部分时，http如何请求获取整个源页面？

问题描述

1 个解决方案

解决方案1 1 2021-10-10 12:53:29

解决方案1
1 2021-10-10 12:53:29