繁体   English   中英

如何使用python在HTML文件中找到特定的URL?

[英]How to find a particular URL in an HTML file with python?

我的 HTML 文件中有一个带有 .bin 附件的 URL。
我的目标是使用我的 Python 脚本提取完整链接。 我在许多 HTML 文件中运行此脚本,.bin URL 的位置可能会更改。
如果我能够获得 URL 开头和结尾的索引,我可以通过这种方式提取它。

我尝试通过 HTML 文件进行单词搜索,但有几个 .bin URL,我只想要第一个。 任何想法,将不胜感激。 或任何其他方法。

import urllib.request, urllib.error, urllib.parse
html_link = "www.mywebsitelink.com"
response = urllib.request.urlopen(html_link)
webContent = response.read()

我建议你看看使用Regex

在您的示例中,您可能会寻找以下内容:

^http://.+\.bin$

您可以使用这个有用的工具对此进行测试并探索 Regex 表达式的每个部分的含义: regex101

您的代码可能如下所示:

import re

bin_url = re.search("^http://.+\.bin$", webContent)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM