如何在Python中使用“由HTML编写的” URL解析HTML代码？

Question

我开始使用Python编程，并且已经阅读了几篇文章，他们说我应该使用HTML解析器从文本获取URL，而不是重新获取。

我有从urllib和urlopen从page.read()获得的源代码。

现在，我的问题是解析器正在从文本中删除url部分。

另外，如果我没看错， var = page.read() ， var是否存储为字符串？

如何告诉我两个“标签”之间的文字？ 网址始终在flv=和;之间; 因此，它并非以解析器所要查找的href开头，也不包含http:// 。

我读了很多帖子，但似乎他们都在代码中寻找``href。

我是否完全错了？

谢谢！

Answer 1

您可以考虑实施自己的搜索/获取。 在psuedocode中，它看起来像这样：

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

您应该能够在python中实现此功能。

祝好运！

如何在Python中使用“由HTML编写的” URL解析HTML代码？

问题描述

1 个解决方案

解决方案1
0 2013-03-24 21:07:22

如何在Python中使用“由HTML编写的” URL解析HTML代码？

问题描述

1 个解决方案

解决方案1 0 2013-03-24 21:07:22

解决方案1
0 2013-03-24 21:07:22