如何使用python從javascript生成的頁面中抓取文本？

Question

我正在尋找一種在Linux上編寫一種腳本的方法，該腳本將從Javascript（特別是etherpad例如http://www.board.net ）生成的頁面中抓取文本。 理想情況下，我想使用現有的工具，但是我沒有找到合適的工具（例如，lynx，但它不支持javascript或Selenium，但可以在瀏覽器中運行）。 歡迎提出建議。

如果沒有合適的方法（對於如此簡單的需求而言這似乎令人驚訝），也許我可以自己用Python編寫一些東西。 對於這樣的事情，存在哪些有用的Python類？

Answer 1

一種選擇是仍然堅持使用Selenium ，但使用無頭PhantomJS 。

也可以看看：

使用Python和PhantomJS進行無頭硒測試

示例（使用firefox webdriver）：

from selenium import webdriver

url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)

element = driver.find_element_by_id('padcontent')
print element.text

打印：

Here is some text I'd like to scrape
 I wonder how to go about it?

如何使用python從javascript生成的頁面中抓取文本？

問題描述

1 個解決方案

解決方案1
1 已采納 2014-04-17 15:19:42

如何使用python從javascript生成的頁面中抓取文本？

問題描述

1 個解決方案

解決方案1 1 已采納 2014-04-17 15:19:42

解決方案1
1 已采納 2014-04-17 15:19:42