簡體   English   中英

wget 不會在 Amazon AWS S3 上下載文件

[英]wget does not download files on Amazon AWS S3

我試圖從以下網頁下載所有幻燈片

https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

我只能下載 html 和一些 PNG 文件。 這些幻燈片托管在 Amazon S3 上,但我無法使用上面的命令抓取它們。 終端上顯示的消息是

但是,我可以使用以下命令直接下載這些幻燈片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有誰知道為什么? 如何使用單個命令下載該頁面上的所有幻燈片?

您需要做的是“HTML Scraping”。 這意味着您獲取一個 HTML 頁面,然后解析頁面內的 HTML 鏈接。 解析后可以下載、編目等在文檔(網頁)中找到的鏈接。

這篇 StackOverflow 文章在這個話題上很受歡迎:

HTML 抓取的選項?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM