如何在Python中使用wget下载网页（MHTML格式）

Question

我们如何保存包含网页内容的网页，以便可以使用python语言的wget离线查看该网页？ 目前，我正在使用以下代码：

import wget

driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")

这可以正常工作并在该文件夹中显示网页的mhtml版本，但是打开文件时，您只会找到编写的代码，而不是页面在网上的显示方式。 有什么建议么？ 谢谢卡兰

Answer 1

此代码将帮助您创建站点的脱机副本，即使没有互联网访问权限，也可以访问和查看该站点。

wget --mirror --convert-links --adjust-extension --page-requisites 
--no-parent http://example.org

--mirror –（除其他外）使下载递归。

--convert-links –将所有链接（也转换为CSS样式表之类的东西）转换为相对链接，因此适用于脱机查看。

--adjust-extension –根据文件名的内容类型向文件名（html或css）添加合适的扩展名。

--page-requisites –下载CSS样式表和图像以离线正确显示页面所需的内容。

--no-parent –递归时，请勿升至父目录。 将下载限制为仅网站的一部分非常有用。

感谢Guy Rutenberg在他的论坛中提供了代码，这对我也有所帮助。

如何在Python中使用wget下载网页（MHTML格式）

问题描述

1 个解决方案

解决方案1
0 2017-03-23 03:15:16

如何在Python中使用wget下载网页（MHTML格式）

问题描述

1 个解决方案

解决方案1 0 2017-03-23 03:15:16

解决方案1
0 2017-03-23 03:15:16