繁体   English   中英

如何在Python中使用wget下载网页(MHTML格式)

[英]How to download a webpage (mhtml format) using wget in python

我们如何保存包含网页内容的网页,以便可以使用python语言的wget离线查看该网页? 目前,我正在使用以下代码:

import wget

driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")

这可以正常工作并在该文件夹中显示网页的mhtml版本,但是打开文件时,您只会找到编写的代码,而不是页面在网上的显示方式。 有什么建议么? 谢谢卡兰

此代码将帮助您创建站点的脱机副本,即使没有互联网访问权限,也可以访问和查看该站点。

wget --mirror --convert-links --adjust-extension --page-requisites 
--no-parent http://example.org

--mirror –(除其他外)使下载递归。

--convert-links –将所有链接(也转换为CSS样式表之类的东西)转换为相对链接,因此适用于脱机查看。

--adjust-extension –根据文件名的内容类型向文件名(html或css)添加合适的扩展名。

--page-requisites –下载CSS样式表和图像以离线正确显示页面所需的内容。

--no-parent –递归时,请勿升至父目录。 将下载限制为仅网站的一部分非常有用。

感谢Guy Rutenberg在他的论坛中提供了代码,这对我也有所帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM