如何在Python中使用“由HTML編寫的” URL解析HTML代碼？

Question

我開始使用Python編程，並且已經閱讀了幾篇文章，他們說我應該使用HTML解析器從文本獲取URL，而不是重新獲取。

我有從urllib和urlopen從page.read()獲得的源代碼。

現在，我的問題是解析器正在從文本中刪除url部分。

另外，如果我沒看錯， var = page.read() ， var是否存儲為字符串？

如何告訴我兩個“標簽”之間的文字？ 網址始終在flv=和;之間; 因此，它並非以解析器所要查找的href開頭，也不包含http:// 。

我讀了很多帖子，但似乎他們都在代碼中尋找``href。

我是否完全錯了？

謝謝！

Answer 1

您可以考慮實施自己的搜索/獲取。 在psuedocode中，它看起來像這樣：

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

您應該能夠在python中實現此功能。

祝好運！

如何在Python中使用“由HTML編寫的” URL解析HTML代碼？

問題描述

1 個解決方案

解決方案1
0 2013-03-24 21:07:22

如何在Python中使用“由HTML編寫的” URL解析HTML代碼？

問題描述

1 個解決方案

解決方案1 0 2013-03-24 21:07:22

解決方案1
0 2013-03-24 21:07:22