使用 selenium bs4 和 python 從網站中提取鏈接

Question

可以，然后呢。

標題似乎已經被問到這個問題，但我沒有找到答案。

我需要幫助使用 python 制作鏈接提取程序。

實際上它有效。 它查找網頁上的所有<a>元素。 獲取他們的href=""並將其放入一個數組中。 然后將其導出為csv文件。 這就是我想要的。

但我無法掌握一件事。

該網站是動態的，所以我使用 Selenium webdriver 來獲取 JavaScript 結果。

該程序的代碼非常簡單。 我用 webdriver 打開一個網站，然后獲取它的內容。 然后我得到所有鏈接

results = driver.find_elements_by_tag_name('a')

通過與for循環，並得到結果的話，我環路href與

result.get_attribute("href")

我將結果存儲在一個數組中，然后將它們打印出來。

但問題是我無法獲得鏈接的名稱。

<a href="https://www.google.com">This leads to Google</a>

有什么辦法可以得到“這會導致谷歌”字符串。

對於存儲在數組中的每個鏈接，我都需要它。

感謝您的時間

更新！！！！！

看起來它只能獲取動態鏈接。 我只是注意到這一點。 這現在真的很奇怪。 對於硬編碼項目，它返回一個空字符串。 對於動態鏈接，它返回其名稱。

Answer 1

好的。 所以。 答案是，如果不使用 .text，您應該使用 get_attribute("textContent")。 比 get_attribute("innerHTML") 效果更好

感謝 KunduK 的回答。 你救了我的一天:)