繁体   English   中英

如何在Python中使用“由HTML编写的” URL解析HTML代码?

[英]How can I parse HTML code with “html written” URL in Python?

我开始使用Python编程,并且已经阅读了几篇文章,他们说我应该使用HTML解析器从文本获取URL,而不是重新获取。

我有从urlliburlopenpage.read()获得的源代码。

现在,我的问题是解析器正在从文本中删除url部分。

另外,如果我没看错, var = page.read()var是否存储为字符串?

如何告诉我两个“标签”之间的文字? 网址始终在flv=;之间; 因此,它并非以解析器所要查找的href开头,也不包含http://

我读了很多帖子,但似乎他们都在代码中寻找``href。

我是否完全错了?

谢谢!

您可以考虑实施自己的搜索/获取。 在psuedocode中,它看起来像这样:

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

您应该能够在python中实现此功能。

祝好运!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM