[英]Unable to access the whole content of the downloaded html file
我的原始任務是將多個科學出版物下載為html文件。 目前,我的腳本下載了chrome瀏覽器中的文件,但該文件會轉到Firefox中的url。 但這不是我的問題。
如果您將看到下載的html源,則將發現並非所有內容都已下載。 只有某些內容顯示在下載的html文件中。 那是我的問題。 為什么我無法在下載的html文件中獲得整個html文檔的內容。 我要下載的文件是這個
var links = [
'http://www.sciencedirect.com/science/article/pii/S2078152015000516'
];
我認為可能是因為CORS問題。 但是,在實現CORS腳本后,它仍在responseText中顯示部分下載的內容。
任何幫助將不勝感激。
另外,如果有人可以告訴我為什么在firefox中,腳本不會下載文件,而是將我帶到url。
之所以無法下載整個頁面,是因為該頁面僅加載一半,而其余部分則在您向下滾動時被動態添加。
因此,當您嘗試下載頁面時,您只會收到最初加載的一半,而沒有動態部分。
由於是使用javascript完成的,因此,如果您禁用了javascript並且不想/不想啟用它(例如使用閱讀器),則該特定網站為您提供了另一種選擇:
如果查看頁面的源代碼,則可以在正文的最開始處找到以下消息框:
<div class="ua_btn" role="region" aria-label="screen reader compatability">
<a role="button" rel="nofollow" href="http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y">
Screen reader users, click here to load entire article
</a>
This page uses JavaScript to progressively load the article content as a user scrolls.
Screen reader users, click the load entire article button to bypass dynamically loaded article content.
</div>
在這里,您會得到一個帶有查詢部分"np=y"
的鏈接,該鏈接將覆蓋動態加載並立即初始化整個頁面:
http://www.sciencedirect.com/science/article/pii/S2078152015000516?np=y
使用此鏈接可以下載artice,它將起作用。
火狐:
如評論中所述,由於潛在的安全風險,firefox不支持按設計進行的CORS下載。 可以在這里找到更多關於它的信息
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.