[英]requests and BeautifulSoup returns weird string
使用BeautifulSoup
和requests
,我制作了一个程序,将几个divs
元素的所有数据放在一个div
中, class rightContent
。 这是代码:
import requests
from bs4 import BeautifulSoup
url = "https://senf.ir/Company/5674580/%D8%A7%D9%87%D9%86-%D8%A7%D9%84%D8%A7%D8%AA"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
div = soup.find('div', {'class': 'rightContent'}) #<div class="rightContent">
print(div.text)
这段代码运行良好,唯一的问题是 output 看起来很奇怪,几乎无法使用。 Output:
اهن الات - آهن آلات و ضایعات
استان :
گلستان
شهر :
گرگان
گروه :
صنعت
زیر گروه :
آهن آلات و ضایعات
آدرس اهن الات:
گلستان-گرگان- بلوار استراباد- جنب نبروگاه فشار قوی برق - بازار اهن پلاک اول
مدیریت اهن الات:
مهرشاد قادری
تلفن :
برای مشاهده اطلاعات لطفا
وارد شوید
و در صورت عدم عضویت از اینجا
ثبت نام کنید
همراه :
برای مشاهده اطلاعات لطفا
وارد شوید
و در صورت عدم عضویت از اینجا
ثبت نام کنید
ایمیل :
بازدید :
2
Process finished with exit code 0
我的目标:如何将这个 output 变成字典?
我这样做的主要问题之一是随机放置的空间和语言是
Persian
而不是英语。
查找标题和值标签:
import requests
from bs4 import BeautifulSoup
url = "https://senf.ir/Company/5674580/%D8%A7%D9%87%D9%86-%D8%A7%D9%84%D8%A7%D8%AA"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.findAll('div', {'class': 'DetailsTitle'})
value = soup.findAll('div', {'class': 'DetailsValue'})
values = []
titles = []
for data in title:
values.append(data.get_text().replace('\n', '').replace('\r', '').replace(' ', ''))
for data in value:
titles.append(data.get_text().replace('\n', '').replace('\r', '').replace(' ', ''))
value_title_dict = dict(zip(values, titles))
value_title_dict
将是:
{'استان :': 'گلستان', 'شهر :': 'گرگان', 'گروه :': 'صنعت', 'زیر گروه :': 'آهن آلات و ضایعات', ' آدرساهن الات:': 'گلستان-گرگان- بلوار استراباد- جنب نبروگاه فشار قوی برق - بازار اهن پلاک اول ', ' مدیریت اهن الات:': 'مهرشاد قادری', 'تلفن :': 'برای مشاهده اطلاعات لطفاوارد شویدو در صورت عدم عضویت از اینجا ثبت نامکنید', 'همراه :': 'برای مشاهده اطلاعات لطفاوارد شویدو در صورت عدم عضویت از اینجا ثبت نامکنید', 'ایمیل :': '', 'بازدید :': '40'}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.