[英]How can I parse HTML code with “html written” URL in Python?
我開始使用Python編程,並且已經閱讀了幾篇文章,他們說我應該使用HTML解析器從文本獲取URL,而不是重新獲取。
我有從urllib
和urlopen
從page.read()
獲得的源代碼。
現在,我的問題是解析器正在從文本中刪除url部分。
另外,如果我沒看錯, var = page.read()
, var
是否存儲為字符串?
如何告訴我兩個“標簽”之間的文字? 網址始終在flv=
和;
之間;
因此,它並非以解析器所要查找的href
開頭,也不包含http://
。
我讀了很多帖子,但似乎他們都在代碼中尋找``href。
我是否完全錯了?
謝謝!
您可以考慮實施自己的搜索/獲取。 在psuedocode中,它看起來像這樣:
find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between: HTML[location_start : location_end]
您應該能夠在python中實現此功能。
祝好運!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.