[英]Extracting links from website with selenium bs4 and python
可以,然后呢。
標題似乎已經被問到這個問題,但我沒有找到答案。
我需要幫助使用 python 制作鏈接提取程序。
實際上它有效。 它查找網頁上的所有<a>
元素。 獲取他們的href=""
並將其放入一個數組中。 然后將其導出為csv
文件。 這就是我想要的。
但我無法掌握一件事。
該網站是動態的,所以我使用 Selenium webdriver 來獲取 JavaScript 結果。
該程序的代碼非常簡單。 我用 webdriver 打開一個網站,然后獲取它的內容。 然后我得到所有鏈接
results = driver.find_elements_by_tag_name('a')
通過與for循環,並得到結果的話,我環路href
與
result.get_attribute("href")
我將結果存儲在一個數組中,然后將它們打印出來。
但問題是我無法獲得鏈接的名稱。
<a href="https://www.google.com">This leads to Google</a>
有什么辦法可以得到“這會導致谷歌”字符串。
對於存儲在數組中的每個鏈接,我都需要它。
感謝您的時間
更新!!!!!
看起來它只能獲取動態鏈接。 我只是注意到這一點。 這現在真的很奇怪。 對於硬編碼項目,它返回一個空字符串。 對於動態鏈接,它返回其名稱。
好的。 所以。 答案是,如果不使用 .text,您應該使用 get_attribute("textContent")。 比 get_attribute("innerHTML") 效果更好
感謝 KunduK 的回答。 你救了我的一天:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.