批量导出HTML页面的特定部分

Question

首先，我是该社区的新用户，我想说这是一个很棒的社区。

我的问题是，我想从<a href="" href=""元素获取URL，使用<alt="new">或从每天变化的网页的<td>部分中使用的图像的名称，属于我。

到目前为止，我已经编写了一些代码，可以使用wget将页面下载到文本文件，然后搜索image或alt变量。 即使它给我带来了搜索到的项目存在的那一部分，它也不包括位于图像之前的<a href我所需要的部分。

编辑：我设法得到以下行，我只需要用批处理将URL放入内部，或使用javascript重定向到它，但是由于标题和URL发生了变化，因此具有挑战性。 有什么帮助吗？

 <td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>

Answer 1

如果我从根本上理解您，那么您想从<a href=""包含的HTML文件链接中获取信息吗？ 我想到的第一个解决方案是下载整个HTML，并使用python和BeautifulSoup库解析此文件并获取所有“ hrefs”。 你是这个意思吗？

Answer 2

使用您提供的代码：

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

请注意，双引号对于删除html标记分隔符<和>是必不可少的，因为它们是重定向字符，除非双引号将其括起来，否则它们将导致错误。

您可以将上面的代码直接复制并粘贴到命令提示符下进行测试。

批量导出HTML页面的特定部分

问题描述

2 个解决方案

解决方案1
0 2012-09-25 20:49:42

解决方案2
0 已采纳 2012-09-27 05:11:28

批量导出HTML页面的特定部分

问题描述

2 个解决方案

解决方案1 0 2012-09-25 20:49:42

解决方案2 0 已采纳 2012-09-27 05:11:28

解决方案1
0 2012-09-25 20:49:42

解决方案2
0 已采纳 2012-09-27 05:11:28