簡體 English 中英

我應該使用什么純Python庫來抓取網站？

[英]What pure Python library should I use to scrape a website?

原文 2009-10-13 21:58:03 2 5 python/ google-app-engine/ xpath/ beautifulsoup/ mechanize

我目前有一些Ruby代碼用來刮一些網站。 我當時正在使用Ruby，因為當時我正在使用Ruby on Rails創建一個站點，這只是有意義的。

現在我正試圖將其移植到Google App Engine，並繼續陷入困境。

我已將Python Mechanize移植到與Google App Engine一起使用，但它不支持使用XPATH進行DOM檢查。

我已經嘗試了內置的ElementTree，但是當它遇到'＆mdash'時，我在第一個HTML blob上窒息了。

我是否一直試圖在那里破解ElementTree，或者我是否嘗試使用其他東西？

謝謝，馬克

5 個解決方案

美麗的湯。

lxml - 比elementtree好100倍

還有scrapy ，可能更多你的胡同。

有許多使用pyparsing編寫的網頁抓取器的例子，例如這個（從yahoo.com提取所有URL鏈接）和這個（用於提取NIST NTP服務器地址）。 一定要使用pyparsing helper方法makeHTMLTags，而不是手工編寫"<" + Literal(tagname) + ">" - makeHTMLTags創建一個非常強大的解析器，可以容納額外的空間，大小寫不一致，意外的屬性，具有各種引用樣式的屬性值，依此類推。 Pyparsing還可以讓您更好地控制特殊語法問題，例如自定義實體。 此外，它是純Python，自由許可，占用空間小（單個源模塊），因此很容易使用其他應用程序代碼放入GAE應用程序。

BeautifulSoup很好，但它的API很笨拙。 嘗試使用ElementSoup ，它為BeautifulSoup提供ElementTree接口。

我應該為MySQL使用什么python 3庫？

[英]What python 3 library should I use for MySQL?

我應該為Facebook OAuth和OpenGraph使用什么Python庫

[英]What python library I should use for facebook OAuth and OpenGraph

我應該使用什么庫在 Python 中實現這個 GUI？ [等候接聽]

[英]What library should I use to implement this GUI in Python? [on hold]

我應該在“社交”網站的后端使用什么？

[英]What should I use for the backend of a 'social' website?

我可以將Cython與3rdparty純python庫一起使用嗎？

[英]Could I use Cython with 3rdparty pure python library?

我應該使用哪個Python XML庫？

[英]Which Python XML library should I use?

用 python 和 json 刮這個網站的正確 URL 是什么？

[英]What is the proper URL to scrape this website with python and json?

使用 Python 從網站上抓取表格

[英]Use Python to scrape a table from a website

在Python中使用ICQ應該怎么用？

[英]What should I use to use ICQ with Python?

當我嘗試用 selenium 和 python 抓取這個網站時

[英]When i try to scrape this website with selenium and python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 我應該為MySQL使用什么python 3庫？我應該為Facebook OAuth和OpenGraph使用什么Python庫我應該使用什么庫在 Python 中實現這個 GUI？ [等候接聽] 我應該在“社交”網站的后端使用什么？我可以將Cython與3rdparty純python庫一起使用嗎？我應該使用哪個Python XML庫？用 python 和 json 刮這個網站的正確 URL 是什么？使用 Python 從網站上抓取表格在Python中使用ICQ應該怎么用？當我嘗試用 selenium 和 python 抓取這個網站時

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM