使用Beautiful Soup 4和Python解析錯誤

Question

我需要從此網站獲取房間列表： http : //www.studentroom.ch/en/dynasite.cfm?dsmid=106547

我正在使用Beautiful Soup 4來解析頁面。 這是我到目前為止編寫的代碼：

from bs4 import BeautifulSoup
import urllib

pageFile = urllib.urlopen("http://studentroom.ch/dynasite.cfm?dsmid=106547")
pageHtml = pageFile.read()
pageFile.close()

soup = BeautifulSoup("".join(pageHtml))

roomsNoFilter = soup.find('div', {"id": "ImmoListe"})

rooms = roomsNoFilter.table.find_all('tr', recursive=False)

for room in rooms:
    print room
    print "----------------"

print len(rooms)

現在，我正在嘗試僅獲取表的行。 但是我只有7行，而不是78行（或77行）。

起初，我很難接受只接收部分html，但是我打印了整個html，並且正確接收了它。 頁面加載后沒有ajax調用會加載新行...

有人可以幫助我找到錯誤嗎？

Answer 1

這對我有用

soup = BeautifulSoup(pageHtml)
div = soup.select('#ImmoListe')[0]
table = div.select('table > tbody')[0]
k = 0
for room in table.find_all('tr'):
    if 'onmouseout' in str(room):
        print room
        k = k + 1
print "Total ",k

讓我知道狀態

使用Beautiful Soup 4和Python解析錯誤

問題描述

1 個解決方案

解決方案1
0 2014-08-26 21:30:47

使用Beautiful Soup 4和Python解析錯誤

問題描述

1 個解決方案

解決方案1 0 2014-08-26 21:30:47

解決方案1
0 2014-08-26 21:30:47