繁体   English   中英

wget 不会在 Amazon AWS S3 上下载文件

[英]wget does not download files on Amazon AWS S3

我试图从以下网页下载所有幻灯片

https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

我只能下载 html 和一些 PNG 文件。 这些幻灯片托管在 Amazon S3 上,但我无法使用上面的命令抓取它们。 终端上显示的消息是

但是,我可以使用以下命令直接下载这些幻灯片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有谁知道为什么? 如何使用单个命令下载该页面上的所有幻灯片?

您需要做的是“HTML Scraping”。 这意味着您获取一个 HTML 页面,然后解析页面内的 HTML 链接。 解析后可以下载、编目等在文档(网页)中找到的链接。

这篇 StackOverflow 文章在这个话题上很受欢迎:

HTML 抓取的选项?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM