[英]How to download a webpage (mhtml format) using wget in python
我们如何保存包含网页内容的网页,以便可以使用python语言的wget离线查看该网页? 目前,我正在使用以下代码:
import wget
driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")
这可以正常工作并在该文件夹中显示网页的mhtml版本,但是打开文件时,您只会找到编写的代码,而不是页面在网上的显示方式。 有什么建议么? 谢谢卡兰
此代码将帮助您创建站点的脱机副本,即使没有互联网访问权限,也可以访问和查看该站点。
wget --mirror --convert-links --adjust-extension --page-requisites
--no-parent http://example.org
--mirror –(除其他外)使下载递归。
--convert-links –将所有链接(也转换为CSS样式表之类的东西)转换为相对链接,因此适用于脱机查看。
--adjust-extension –根据文件名的内容类型向文件名(html或css)添加合适的扩展名。
--page-requisites –下载CSS样式表和图像以离线正确显示页面所需的内容。
--no-parent –递归时,请勿升至父目录。 将下载限制为仅网站的一部分非常有用。
感谢Guy Rutenberg在他的论坛中提供了代码,这对我也有所帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.