無法提取文字並通過BeautifulSoup找到所有內容

Question

我想提取設備中的所有可用項目，但是我只能得到前四個項目，然后得到“ +加號”。

import urllib2
from bs4 import BeautifulSoup
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
url = 'https://www.airbnb.fr/rooms/8261637?s=bAMrFL5A'
req = urllib2.Request(url = url, headers = headers)
html = urllib2.urlopen(req)
bsobj = BeautifulSoup(html.read(),'lxml')
b = bsobj.findAll("div",{"class": "row amenities"})

對於b的結果，它不會返回標簽內的所有列表。 最后一個是“ +加號”，如下所示。

<span data-reactid=".mjeft4n4sg.0.0.0.0.1.8.1.0.0.$1.1.0.0">+ Plus</span></strong></a></div></div></div></div></div>]

Answer 1

這是因為頁面加載后使用reactjs填充了數據。 因此，如果通過請求下載它，則看不到數據。

相反，您必須使用selenium Web驅動程序，打開頁面並處理所有JavaScript。 這樣您就可以訪問所有期望的數據

無法提取文字並通過BeautifulSoup找到所有內容

問題描述

1 個解決方案

解決方案1
1 已采納 2015-12-18 20:11:10

無法提取文字並通過BeautifulSoup找到所有內容

問題描述

1 個解決方案

解決方案1 1 已采納 2015-12-18 20:11:10

解決方案1
1 已采納 2015-12-18 20:11:10