繁体   English   中英

无法提取文字并通过BeautifulSoup找到所有内容

[英]Can't extract the text and find all by BeautifulSoup

我想提取设备中的所有可用项目,但是我只能得到前四个项目,然后得到“ +加号”。

import urllib2
from bs4 import BeautifulSoup
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
url = 'https://www.airbnb.fr/rooms/8261637?s=bAMrFL5A'
req = urllib2.Request(url = url, headers = headers)
html = urllib2.urlopen(req)
bsobj = BeautifulSoup(html.read(),'lxml')
b = bsobj.findAll("div",{"class": "row amenities"})

对于b的结果,它不会返回标签内的所有列表。 最后一个是“ +加号”,如下所示。

<span data-reactid=".mjeft4n4sg.0.0.0.0.1.8.1.0.0.$1.1.0.0">+ Plus</span></strong></a></div></div></div></div></div>]

这是因为页面加载后使用reactjs填充了数据。 因此,如果通过请求下载它,则看不到数据。

相反,您必须使用selenium Web驱动程序 ,打开页面并处理所有JavaScript。 这样您就可以访问所有期望的数据

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM