簡體   English   中英

無法訪問下載的html文件的全部內容

[英]Unable to access the whole content of the downloaded html file

我的原始任務是將多個科學出版物下載為html文件。 目前,我的腳本下載了chrome瀏覽器中的文件,但該文件會轉到Firefox中的url。 但這不是我的問題。

如果您將看到下載的html源,則將發現並非所有內容都已下載。 只有某些內容顯示在下載的html文件中。 那是我的問題。 為什么我無法在下載的html文件中獲得整個html文檔的內容。 我要下載的文件是這個

var links = [
      'http://www.sciencedirect.com/science/article/pii/S2078152015000516'
];

我認為可能是因為CORS問題。 但是,在實現CORS腳本后,它仍在responseText中顯示部分下載的內容。

任何幫助將不勝感激。

另外,如果有人可以告訴我為什么在firefox中,腳本不會下載文件,而是將我帶到url。

之所以無法下載整個頁面,是因為該頁面僅加載一半,而其余部分則在您向下滾動時被動態添加。
因此,當您嘗試下載頁面時,您只會收到最初加載的一半,而沒有動態部分。

由於是使用javascript完成的,因此,如果您禁用了javascript並且不想/不想啟用它(例如使用閱讀器),則該特定網站為您提供了另一種選擇:
如果查看頁面的源代碼,則可以在正文的最開始處找到以下消息框:

<div class="ua_btn" role="region" aria-label="screen reader compatability">
    <a role="button" rel="nofollow" href="http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y">
        Screen reader users, click here to load entire article
    </a> 
    This page uses JavaScript to progressively load the article content as a user scrolls.
    Screen reader users, click the load entire article button to bypass dynamically loaded article content.
</div>

在這里,您會得到一個帶有查詢部分"np=y"的鏈接,該鏈接將覆蓋動態加載並立即初始化整個頁面:

http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y

使用此鏈接可以下載artice,它將起作用。

火狐:
如評論中所述,由於潛在的安全風險,firefox不支持按設計進行的CORS下載。 可以在這里找到更多關於它的信息

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM