簡體   English   中英

如何使用python從javascript生成的頁面中抓取文本?

[英]How to use python to scrape the text from a page generated by javascript?

我正在尋找一種在Linux上編寫一種腳本的方法,該腳本將從Javascript(特別是etherpad例如http://www.board.net )生成的頁面中抓取文本 理想情況下,我想使用現有的工具,但是我沒有找到合適的工具(例如,lynx,但它不支持javascript或Selenium,但可以在瀏覽器中運行)。 歡迎提出建議。

如果沒有合適的方法(對於如此簡單的需求而言這似乎令人驚訝),也許我可以自己用Python編寫一些東西。 對於這樣的事情,存在哪些有用的Python類?

一種選擇是仍然堅持使用Selenium ,但使用無頭PhantomJS

也可以看看:

示例(使用firefox webdriver):

from selenium import webdriver

url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)

element = driver.find_element_by_id('padcontent')
print element.text

打印:

Here is some text I'd like to scrape
 I wonder how to go about it?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM