無法訪問下載的html文件的全部內容

Question

我的原始任務是將多個科學出版物下載為html文件。 目前，我的腳本下載了chrome瀏覽器中的文件，但該文件會轉到Firefox中的url。 但這不是我的問題。

如果您將看到下載的html源，則將發現並非所有內容都已下載。 只有某些內容顯示在下載的html文件中。 那是我的問題。 為什么我無法在下載的html文件中獲得整個html文檔的內容。 我要下載的文件是這個

var links = [
      'http://www.sciencedirect.com/science/article/pii/S2078152015000516'
];

我認為可能是因為CORS問題。 但是，在實現CORS腳本后，它仍在responseText中顯示部分下載的內容。

任何幫助將不勝感激。

另外，如果有人可以告訴我為什么在firefox中，腳本不會下載文件，而是將我帶到url。

Answer 1

之所以無法下載整個頁面，是因為該頁面僅加載一半，而其余部分則在您向下滾動時被動態添加。
因此，當您嘗試下載頁面時，您只會收到最初加載的一半，而沒有動態部分。

由於是使用javascript完成的，因此，如果您禁用了javascript並且不想/不想啟用它（例如使用閱讀器），則該特定網站為您提供了另一種選擇：
如果查看頁面的源代碼，則可以在正文的最開始處找到以下消息框：

<div class="ua_btn" role="region" aria-label="screen reader compatability">
    <a role="button" rel="nofollow" href="http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y">
        Screen reader users, click here to load entire article
    </a> 
    This page uses JavaScript to progressively load the article content as a user scrolls.
    Screen reader users, click the load entire article button to bypass dynamically loaded article content.
</div>

在這里，您會得到一個帶有查詢部分"np=y"的鏈接，該鏈接將覆蓋動態加載並立即初始化整個頁面：

http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y

使用此鏈接可以下載artice，它將起作用。

火狐：
如評論中所述，由於潛在的安全風險，firefox不支持按設計進行的CORS下載。 可以在這里找到更多關於它的信息

無法訪問下載的html文件的全部內容

問題描述

1 個解決方案

解決方案1
1 已采納 2016-02-15 19:10:34

無法訪問下載的html文件的全部內容

問題描述

1 個解決方案

解決方案1 1 已采納 2016-02-15 19:10:34

解決方案1
1 已采納 2016-02-15 19:10:34