簡體   English   中英

如何在Python中使用“由HTML編寫的” URL解析HTML代碼?

[英]How can I parse HTML code with “html written” URL in Python?

我開始使用Python編程,並且已經閱讀了幾篇文章,他們說我應該使用HTML解析器從文本獲取URL,而不是重新獲取。

我有從urlliburlopenpage.read()獲得的源代碼。

現在,我的問題是解析器正在從文本中刪除url部分。

另外,如果我沒看錯, var = page.read()var是否存儲為字符串?

如何告訴我兩個“標簽”之間的文字? 網址始終在flv=;之間; 因此,它並非以解析器所要查找的href開頭,也不包含http://

我讀了很多帖子,但似乎他們都在代碼中尋找``href。

我是否完全錯了?

謝謝!

您可以考慮實施自己的搜索/獲取。 在psuedocode中,它看起來像這樣:

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

您應該能夠在python中實現此功能。

祝好運!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM