繁体   English   中英

批量导出HTML页面的特定部分

[英]Exporting specific part of a html page with batch

首先,我是该社区的新用户,我想说这是一个很棒的社区。

我的问题是,我想从<a href="" href=""元素获取URL,使用<alt="new">或从每天变化的网页的<td>部分中使用的图像的名称,属于我。

到目前为止,我已经编写了一些代码,可以使用wget将页面下载到文本文件,然后搜索image或alt变量。 即使它给我带来了搜索到的项目存在的那一部分,它也不包括位于图像之前的<a href我所需要的部分。

编辑:我设法得到以下行,我只需要用批处理将URL放入内部,或使用javascript重定向到它,但是由于标题和URL发生了变化,因此具有挑战性。 有什么帮助吗?

 <td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a> 

如果我从根本上理解您,那么您想从<a href=""包含的HTML文件链接中获取信息吗? 我想到的第一个解决方案是下载整个HTML,并使用python和BeautifulSoup库解析此文件并获取所有“ hrefs”。 你是这个意思吗?

使用您提供的代码:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

请注意,双引号对于删除html标记分隔符<>是必不可少的,因为它们是重定向字符,除非双引号将其括起来,否则它们将导致错误。

您可以将上面的代码直接复制并粘贴到命令提示符下进行测试。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM