[英]How to use python to scrape the text from a page generated by javascript?
我正在尋找一種在Linux上編寫一種腳本的方法,該腳本將從Javascript(特別是etherpad例如http://www.board.net )生成的頁面中抓取文本 。 理想情況下,我想使用現有的工具,但是我沒有找到合適的工具(例如,lynx,但它不支持javascript或Selenium,但可以在瀏覽器中運行)。 歡迎提出建議。
如果沒有合適的方法(對於如此簡單的需求而言這似乎令人驚訝),也許我可以自己用Python編寫一些東西。 對於這樣的事情,存在哪些有用的Python類?
一種選擇是仍然堅持使用Selenium ,但使用無頭PhantomJS 。
也可以看看:
示例(使用firefox webdriver):
from selenium import webdriver
url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)
element = driver.find_element_by_id('padcontent')
print element.text
打印:
Here is some text I'd like to scrape
I wonder how to go about it?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.