如何使用python抓取網站/將數據提取到數據庫中？

Question

我想構建一個webapp來幫助我大學的其他學生創建他們的日程安排。 為此，我需要抓取主時間表（一個巨大的html頁面）以及每個課程的詳細描述鏈接到數據庫中，最好是在python中。 另外，我需要登錄才能訪問數據。

那會怎么樣？
我可以/應該使用哪些工具/庫？
有沒有很好的教程？
我如何最好地處理二進制數據（例如漂亮的pdf）？
那已經有很好的解決方案嗎？

Answer 1

下載頁面的requests 。
- 以下是如何登錄網站和下載頁面的示例： https ： //stackoverflow.com/a/8316989/311220
lxml用於抓取數據。

如果你想使用強大的刮擦框架，那就是Scrapy 。 它也有一些很好的文檔。 根據你的任務，這可能有點矯枉過正。

Answer 2

Scrapy可能是最好的爬行Python庫。 它可以維護經過身份驗證的會話的狀態。

處理二進制數據應單獨處理。 對於每種文件類型，您必須根據自己的邏輯以不同方式處理它。 對於幾乎任何類型的格式，您可能都能找到一個庫。 例如，看看PyPDF處理PDF。 對於excel文件，您可以嘗試xlrd。

Answer 3

我喜歡使用BeatifulSoup來提取html數據

它就像這樣簡單：

from BeautifulSoup import BeautifulSoup 
import urllib

ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')

urls = [item.enclosure['url'] for item in items]

Answer 4

為此目的，有一個非常有用的工具叫做web-harvest鏈接到他們的網站http://web-harvest.sourceforge.net/我用它來抓取網頁

如何使用python抓取網站/將數據提取到數據庫中？

問題描述

4 個解決方案

解決方案1
11 已采納 2011-12-01 01:55:49

解決方案2
3 2011-12-01 02:00:33

解決方案3
2 2011-12-01 02:02:26

解決方案4
0 2014-09-21 07:57:18

如何使用python抓取網站/將數據提取到數據庫中？

問題描述

4 個解決方案

解決方案1 11 已采納 2011-12-01 01:55:49

解決方案2 3 2011-12-01 02:00:33

解決方案3 2 2011-12-01 02:02:26

解決方案4 0 2014-09-21 07:57:18

解決方案1
11 已采納 2011-12-01 01:55:49

解決方案2
3 2011-12-01 02:00:33

解決方案3
2 2011-12-01 02:02:26

解決方案4
0 2014-09-21 07:57:18