繁体   English   中英

Python html 解析使用漂亮的汤问题

[英]Python html parsing using beautiful soup issues

我正在尝试使用 beautifulsoup 从https://www.devex.com/organizations/search获取所有组织的名称。但是,我遇到了错误。 有人可以帮忙吗。

从请求中导入请求 从 bs4 中导入请求 导入 BeautifulSoup 导入 pandas 作为 pd 导入 numpy 作为 np

从时间导入睡眠从随机导入randint

headers = {"Accept-Language": "en-US,en;q=0.5"}

标题 = [] 页 = np.arange(1, 2, 1)

对于页面中的页面:

page = requests.get("https://www.devex.com/organizations/search?page%5Bnumber%5D=" + str(page) + "", headers=headers)

soup = BeautifulSoup(page.text, 'html.parser') movie_div = soup.find_all('div', class_='info-container')

睡眠(randint(2,10))

对于movie_div中的容器:

    name = container.a.find('h3', class_= 'ng-binding').text
    titles.append(name)
    

电影 = pd.DataFrame({ '电影': 标题,

})

看你的 dataframe

印刷(电影)

查看列的数据类型

打印(movies.dtypes)

查看您丢失数据的位置以及丢失了多少数据

打印(movies.isnull().sum())

将所有抓取的数据移动到 CSV 文件

movies.to_csv('movies.csv')

你可以试试类似的东西

name = bs.find("h3", {"class": "ng-binding"})

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM