寻找一个Linux应用程序(或Firefox扩展),它将允许我刮取HTML模型并保持页面的完整性。 Firefox几乎完美无缺,但不会抓取CSS中引用的图像。

Firefox的Scrabbook扩展程序可以获取所有内容,但会使目录结构变得平坦。

如果所有文件夹都成为索引页面的子项,我不会非常介意。

===============>>#1 票数:5 已采纳

请参阅使用wget进行网站镜像

wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com

===============>>#2 票数:2

你试过wget吗?

===============>>#3 票数:1

wget -r做你想要的,如果没有,有很多标志来配置它。 man wget

另一个选择是curl ,它更强大。 http://curl.haxx.se/

===============>>#4 票数:0

Teleport Pro非常适合这类事情。 您可以将它指向完整的网站,它将在本地下载一个维护目录结构的副本,并根据需要用相对的链接替换绝对链接。 您还可以指定是否需要来自原始网站链接到的其他第三方网站的内容。

  ask by Adam translate from so

未解决问题?本站智能推荐:

3回复

如何从HTML页面源获取特定的html div标签?

我使用Asp.net和C#,并且无法在文本文件中使用webrequest和webresponse获取HTML页面的源代码,现在我只想获取一些元素或html标签,而不是整个源代码,任何1可以帮助我在这?? 如果可能的话,我们可以将元素和值保存在mysql数据库中。 建议是否有有用的参考链接??
3回复

PHP函数使用scrape方法获取远程站点上

任何人都有一个PHP函数,可以获取远程站点上特定DIV内的所有链接? 因此用法可能是: $ links = grab_links($ url,$ divname); 并返回一个我可以使用的数组。 抓住链接我可以弄清楚,但不知道如何使它只在特定的div内做。 谢谢! 斯科特
1回复

Unicode相等比较失败的Python屏幕抓取Twitter页面

我正在使用以下代码在Twitter上获取用户关注者的列表: 但是,我得到以下结果: ....(因此继续) 看来我能够获得以下大多数名称,但收到了一些随机错误。 它并没有阻止代码完成,但是...我希望有人能启发我发生了什么事?
3回复

使用python在LXML中进行屏幕抓取-提取特定数据

在过去的几个小时里,我一直在尝试编写一个程序,该程序完成了我认为非常简单的任务: 程序要求用户输入(假设类型为“幸福”) 程序使用以下格式查询网站thinkexist(“ http://thinkexist.com/search/searchQuotation.asp?sear
1回复

使用Ghost.py用python屏幕抓取动态网页

我正在尝试使用上面的代码在上面的页面上找到所有具有类'soundTitle__title'的html元素,但是截至目前,我的输出是 谁能帮我看看我的问题在哪里? 当我在浏览器控制台中运行document.getElementsByClassName('soundTitle__titl
2回复

保存HTML页面+更改所有链接以指向正确的位置

您可能知道IE可以在其中保存网页,并且它会自动下载html文件以及该html文件使用的所有image / css / js文件。 现在这有一个问题-html文件中的链接未更改。 因此,如果我下载example.com的html页面,该页面具有<a href = / hi.html&
1回复

三层OOCSS体系结构

我正在寻求有关结构/体系结构的讨论,以遵循OOCSS原则(inuit.css,smacss等)的三层样式指南。 如果您熟悉inuit.css,您将知道该框架是为两层构建的。 底层(基础)将代表inuit.css的核心。 基本上,不应更改的对象和抽象。 第二层包括对基础层的扩展,即特定于手
3回复

脚本和样式表与插件的文件夹结构

我对构建数据的最佳实践/最有效方式感到好奇。 选项 所有脚本都放在scripts文件夹中,所有样式表都放在css文件夹中。 此方法的问题在于,依赖样式表的插件将不在同一目录中,并且在将脚本添加到页面时可能会被忽略 通过jQuery动态向插件脚本添加样式,从而无需外部样
2回复

此星级教程的位置/如何保存星形图像?

我是尝试实施此星级教程的HTML / CSS的新手: http : //www.dillerdesign.com/css/cookbook/component_star_rater.html 文字和悬停功能正常,但未显示星形图像。 据我了解,我只需要使用一张名为“ img / star_
1回复

如何使用base_url()CodeIgniter方法在我的视图中获取正确的CSS文件地址

我正在CodeIgniter中开发一个项目,但面临以下问题: 我的视图文件(标题)中包含以下代码: 在本地主机上,它生成: 在本地主机上运行时,完美加载每个css和js文件没有问题。 但是,当我将其上传到实时服务器( 到现有网站的子域 )时,那里没有文件。 我一直在尝试