繁体   English   中英

Python — Beautiful Soup — 如果标签为空或有值,则返回信息

[英]Python — Beautiful Soup — Returning Information if a tag is empty or has values

我决定学习 Python,因为我现在有更多时间(由于大流行)并且一直在自学 Python。

我正在尝试从网站上获取税率,并且几乎可以获得我需要的一切。 下面是来自我的Soup变量的代码片段以及 Python 的相关部分。

我遇到困难的地方是我找到了option标签以及空的data-alias (“”)。 但是,如果您查看下面的代码,就会发现一些非空的data-alias阶段(请参阅阿联酋或英国) ——它们列出了一些国家/地区。

我也希望从中获取data-url和国家/地区名称。

当我丢失一些必需的信息时,如何编码以获得空标签和非空标签?

谢谢,赛斯

我的代码:

import requests
from bs4 import BeautifulSoup
import re

l=[]
r = requests.get("https://taxsummaries.pwc.com/")
c=r.content
soup = BeautifulSoup(c, "html.parser")
all = soup.find_all("option", {"data-alias":""})
    

网站信息:

 <option data-alias="" data-id="c9ddd85e-f3dc-4661-a4cb-8101f4644871" data-url="https://taxsummaries.pwc.com:443/uganda">Uganda</option> <option data-alias="" data-id="d21e8abe-784c-4617-a90e-5369b49a202f" data-url="https://taxsummaries.pwc.com:443/ukraine">Ukraine</option> <option data-alias="UAE" data-id="9e3f5e7b-f110-47dd-95d8-3d8160466e4a" data-url="https://taxsummaries.pwc.com:443/united-arab-emirates">United Arab Emirates</option> <option data-alias="Great Britain UK Britain Whales Northern Ireland England" data-id="3c42b2a9-7ed6-4b19-821d-5d78ef6f2b5d" data-url="https://taxsummaries.pwc.com:443/united-kingdom">United Kingdom</option>

这是一种方式,它还会向您介绍其他一些可能感兴趣的 Python 主题(正如您提到的那样,您正在学习):

all = soup.find_all("option", {"data-alias":True})

results=[]
for item in all:
   results.append({item.text:item['data-url']})

注释:

  • soup.find_all("option", {"data-alias":True}) - 这将找到所有具有data-alias属性的option标签,无论其值如何
  • results是将 scope 中的记录添加到 ( results.append ) 的list
  • {item.text:item['data-url']} - 这是一个字典,其中是国家名称( item.text ),是 data-url 属性( item['data-url']

编写结果列表的等效(更紧凑)方式是使用列表推导的概念。

results=[{item.text:item['data-url']} for item in all]

您需要使用{"data-alias":True} 你可以试试:

import requests
from bs4 import BeautifulSoup
l=[]
r = requests.get("https://taxsummaries.pwc.com/")
c=r.content
soup = BeautifulSoup(c, "html.parser")
options = soup.find_all('option', {"data-alias":True})
for each in options:
    print("country_name : " + str(each.text), " data-url : " + str(each['data-url']))

Output 将是:

country_name : Albania  data-url : https://taxsummaries.pwc.com:443/albania
country_name : Algeria  data-url : https://taxsummaries.pwc.com:443/algeria
country_name : Angola  data-url : https://taxsummaries.pwc.com:443/angola
country_name : Argentina  data-url : https://taxsummaries.pwc.com:443/argentina
country_name : Armenia  data-url : https://taxsummaries.pwc.com:443/armenia
country_name : Australia  data-url : https://taxsummaries.pwc.com:443/australia
country_name : Austria  data-url : https://taxsummaries.pwc.com:443/austria
country_name : Azerbaijan  data-url : https://taxsummaries.pwc.com:443/azerbaijan
country_name : Bahrain  data-url : https://taxsummaries.pwc.com:443/bahrain
country_name : Barbados  data-url : https://taxsummaries.pwc.com:443/barbados
country_name : Belarus  data-url : https://taxsummaries.pwc.com:443/belarus
country_name : Belgium  data-url : https://taxsummaries.pwc.com:443/belgium
country_name : Bermuda  data-url : https://taxsummaries.pwc.com:443/bermuda
country_name : Bolivia  data-url : https://taxsummaries.pwc.com:443/bolivia
country_name : Bosnia and Herzegovina  data-url : https://taxsummaries.pwc.com:443/bosnia-and-herzegovina
country_name : Botswana  data-url : https://taxsummaries.pwc.com:443/botswana
country_name : Brazil  data-url : https://taxsummaries.pwc.com:443/brazil
country_name : Bulgaria  data-url : https://taxsummaries.pwc.com:443/bulgaria


and so on ......

获取list

for each in options:
    l.append( str(each.text)+ " : " + str(each['data-url']))
print(l)

Output 将是:

['Albania : https://taxsummaries.pwc.com:443/albania', 'Algeria : https://taxsummaries.pwc.com:443/algeria', 'Angola : https://taxsummaries.pwc.com:443/angola', 'Argentina : https://taxsummaries.pwc.com:443/argentina', 'Armenia : https://taxsummaries.pwc.com:443/armenia', 'Australia : https://taxsummaries.pwc.com:443/australia', 'Austria : https://taxsummaries.pwc.com:443/austria', 'Azerbaijan : https://taxsummaries.pwc.com:443/azerbaijan', 'Bahrain : https://taxsummaries.pwc.com:443/bahrain', 'Barbados : https://taxsummaries.pwc.com:443/barbados', 'Belarus : https://taxsummaries.pwc.com:443/belarus', 'Belgium : https://taxsummaries.pwc.com:443/belgium', 'Bermuda : https://taxsummaries.pwc.com:443/bermuda', 'Bolivia : https://taxsummaries.pwc.com:443/bolivia', 'Bosnia and Herzegovina : https://taxsummaries.pwc.com:443/bosnia-and-herzegovina', 'Botswana : https://taxsummaries.pwc.com:443/botswana', 'Brazil : https://taxsummaries.pwc.com:443/brazil', 'Bulgaria : https://taxsummaries.pwc.com:443/bulgaria', 'Cabo Verde : https://taxsummaries.pwc.com:443/cabo-verde', 'Cambodia : https://taxsummaries.pwc.com:443/cambodia', 'Cameroon, Republic of : https://taxsummaries.pwc.com:443/republic-of-cameroon',


and so on............]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM