[英]Parsing web page in python using Beautiful Soup
從網站上獲取數據我遇到了一些麻煩。 網站來源如下:
view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO
有這樣的事:
INFORMACJE O FILMIE
Tytuł............................................:Lameràboire Ocena .............................................:IMDB - 6.3 / 10(24) Produkcja .........................................:Francja Gatunek ...........................................:Dramat Czas trwania ......................................:98分鍾 Premiera ..........................................:22.02.2012 - Świat Reżyseria........................................:Jacques Maillot Scenariusz ........................................:Pierre Chosson,Jacques Maillot Aktorzy ...........................................:Daniel Auteuil,Maud Wyler ,YannTrégouët,Alain Beigel
我想從這個網站獲得數據的Python列表:
[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]
我使用BeautifulSoup編寫了一些代碼,但我不能再進一步了,我只是不知道從網站源代碼中得到什么,以及如何轉換為字符串...請幫忙!
我的代碼:
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
c = soup.find('span', {'class':'vi'}).contents
print(c)
except urllib2.HTTPError :
print("HTTPERROR!")
except urllib2.URLError :
print("URLERROR!")
使用BeautifulSoup的秘訣是找到HTML文檔的隱藏模式。 例如,你的循環
for ul in soup.findAll('p') :
print(ul)
是在正確的方向,但它將返回所有段落,而不僅僅是你正在尋找的段落。 但是,您正在尋找的段落具有類i
的有用屬性。 在這些段落中,可以找到兩個跨度,一個帶有類i
,另一個帶有類vi
。 我們很幸運,因為這些跨度包含您正在尋找的數據:
<p class="i">
<span class="i">Tytuł............................................</span>
<span class="vi">: La mer à boire</span>
</p>
所以,首先得到給定類的所有段落:
>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]
現在,使用列表推導 ,我們可以生成一對對列表,其中每對包含段落中的第一個和第二個跨度:
>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>),
(<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
(<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
# and so on
]
現在我們有了跨度,我們可以從中獲取文本:
>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
(u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
(u'Produkcja.........................................', u': Francja'),
# and so on
]
那些文本仍然沒有問題,但很容易糾正它們。 要刪除第一個點,我們可以使用rstrip()
:
>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'
可以使用lstrip()
刪除:
string:
>>> u': Francja'.lstrip(': ')
u'Francja'
要將其應用於所有內容,我們只需要另一個列表理解:
>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
(u'Ocena', u'IMDB - 6.3/10 (24)'),
(u'Produkcja', u'Francja'),
(u'Gatunek', u'Dramat'),
(u'Czas trwania', u'98 min.'),
(u'Premiera', u'22.02.2012 - \u015awiat'),
(u'Re\u017cyseria', u'Jacques Maillot'),
(u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
(u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel'),
(u'Wi\u0119cej na', u':'),
(u'Trailer', u':Obejrzyj zwiastun')]
就是這樣。 我希望這個循序漸進的例子可以讓您更好地使用BeautifulSoup。
這將獲得列表您希望您必須編寫一些代碼來擺脫尾隨的'....並轉換字符串。
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
s = p.find('span',{ "class" : 'i' })
t = p.find('span',{ "class" : 'vi' })
if s and t:
p_list = [s.string,t.string]
LIST.append(p_list)
除了urllib2.HTTPError:print(“HTTPERROR!”),除了urllib2.URLError:print(“URLERROR!”)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.