繁体   English   中英

使用Beautiful Soup和python检索值

[英]Retrive <b> value using Beautiful Soup and python

以下是html页面的示例。 尝试创建一个数据集,其中标签<b>下的值为标头,标签<span>下的值为标头。 该怎么做。 请帮忙。

<div class ="profile">

        <P class="info">
          <b>Full name</b>
          <span>Raju Kumar</span>
        </p>

        <P class="info">
          <b>DOB</b>
          <span>05/06/1992</span>
        </p>

        <P class="info">
          <b>DOB</b>
          <span>05/06/1992</span>
        </p>



</div>

下面是我尝试获取<b>标签值作为标题的尝试。 但它仅返回第一个<b>标记值。

header = [h.string for h in soup.find('p', class_='info').find_all('b')]

您可以使用以下行获取列表:

values = [(p.find('b').string, p.find('span').string) 
             for p in soup.find_all('p', class_='info')]

如果您更喜欢字典格式:

dict_values = {p.find('b').string: p.find('span').string 
                  for p in soup.find_all('p', class_='info') }

编辑:

如果您需要建立一个数据框,

您有给定序列对的DataFrame.from_items方法:

values = [(p.find('b').string, p.find('span').string) 
             for p in soup.find_all('p', class_='info')]
value_df = pandas.DataFrame.from_items(values)

或者,您可以使用DataFrame.from_dict

dict_values = {p.find('b').get_txt():p.find('span').get_txt() 
                  for p in soup.find_all('p', class_='info') }
value_df = pandas.DataFrame.from_dict(dict_values)

如果我正确理解这一点,则需要循环两次:

header = [b.string for h in soup.find_all('p', class_='info') for b in h.find_all('b')]

您只发现了带有soup.find的第一个p像使用b标签一样使用soup.find_all

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM