簡體   English   中英

Python selenium 擺脫連字符和其他特殊的 html 字符

[英]Python selenium get rid of hyphens and other special html characters

我用 selenium 抓取網站,然后將內容放入 pandas 以輕松使用它。 我唯一的問題是,當我在 selenium webelement 上使用 .text 函數時,所有特殊的 html 字符都被保留但不能被刪除,因為它們是不可見的。 有沒有辦法在抓取時將它們全部刪除?

謝謝你們 !

我前段時間遇到過類似的問題。 沒有任何可重現的代碼或 HTML 很難說,但我發現刪除特殊字符的最佳方法是執行 JS 腳本

driver.execute_script("var element = document.getElementsByClassName('<class_name>');for (var i = element.length - 1; i >= 0; --i) {element[i].remove();}")

將 <class_name> 替換為您要刪除的類的名稱 現在您可以抓取您需要的網頁元素,而無需擔心特殊字符。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM