[英]Exporting specific part of a html page with batch
首先,我是该社区的新用户,我想说这是一个很棒的社区。
我的问题是,我想从<a href=""
href=""元素获取URL,使用<alt="new">
或从每天变化的网页的<td>
部分中使用的图像的名称,属于我。
到目前为止,我已经编写了一些代码,可以使用wget
将页面下载到文本文件,然后搜索image或alt变量。 即使它给我带来了搜索到的项目存在的那一部分,它也不包括位于图像之前的<a href
我所需要的部分。
编辑:我设法得到以下行,我只需要用批处理将URL放入内部,或使用javascript重定向到它,但是由于标题和URL发生了变化,因此具有挑战性。 有什么帮助吗?
<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>
如果我从根本上理解您,那么您想从<a href=""
包含的HTML文件链接中获取信息吗? 我想到的第一个解决方案是下载整个HTML,并使用python和BeautifulSoup库解析此文件并获取所有“ hrefs”。 你是这个意思吗?
使用您提供的代码:
set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"
set "x=%x:<=%" & :: Remove Redirection Character
set "x=%x:>=%" & :: Remove Redirection Character
set x=%x:*href=% & :: Remove everything up till href=
set x=%x:~2% & :: Trim ="
set x=%x:"='% & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem % & :: Remove everything after URL
echo %x%
请注意,双引号对于删除html标记分隔符<
和>
是必不可少的,因为它们是重定向字符,除非双引号将其括起来,否则它们将导致错误。
您可以将上面的代码直接复制并粘贴到命令提示符下进行测试。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.