簡體   English   中英

使用 selenium bs4 和 python 從網站中提取鏈接

[英]Extracting links from website with selenium bs4 and python

可以,然后呢。

標題似乎已經被問到這個問題,但我沒有找到答案。

我需要幫助使用 python 制作鏈接提取程序。

實際上它有效。 它查找網頁上的所有<a>元素。 獲取他們的href=""並將其放入一個數組中。 然后將其導出為csv文件。 這就是我想要的。

但我無法掌握一件事。

該網站是動態的,所以我使用 Selenium webdriver 來獲取 JavaScript 結果。

該程序的代碼非常簡單。 我用 webdriver 打開一個網站,然后獲取它的內容。 然后我得到所有鏈接

results = driver.find_elements_by_tag_name('a')

通過與for循環,並得到結果的話,我環路href

result.get_attribute("href")

我將結果存儲在一個數組中,然后將它們打印出來。

但問題是我無法獲得鏈接的名稱。

<a href="https://www.google.com">This leads to Google</a>

有什么辦法可以得到“這會導致谷歌”字符串。

對於存儲在數組中的每個鏈接,我都需要它。

感謝您的時間

更新!!!!!

看起來它只能獲取動態鏈接。 我只是注意到這一點。 這現在真的很奇怪。 對於硬編碼項目,它返回一個空字符串。 對於動態鏈接,它返回其名稱。

好的。 所以。 答案是,如果不使用 .text,您應該使用 get_attribute("textContent")。 比 get_attribute("innerHTML") 效果更好

感謝 KunduK 的回答。 你救了我的一天:)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM