使用Beautiful Soup和python檢索值

Question

以下是html頁面的示例。 嘗試創建一個數據集，其中標簽<b>下的值為標頭，標簽<span>下的值為標頭。 該怎么做。 請幫忙。

<div class ="profile">

        <P class="info">
          <b>Full name</b>
          <span>Raju Kumar</span>
        </p>

        <P class="info">
          <b>DOB</b>
          <span>05/06/1992</span>
        </p>

        <P class="info">
          <b>DOB</b>
          <span>05/06/1992</span>
        </p>



</div>

下面是我嘗試獲取<b>標簽值作為標題的嘗試。 但它僅返回第一個<b>標記值。

header = [h.string for h in soup.find('p', class_='info').find_all('b')]

Answer 1

您可以使用以下行獲取列表：

values = [(p.find('b').string, p.find('span').string) 
             for p in soup.find_all('p', class_='info')]

如果您更喜歡字典格式：

dict_values = {p.find('b').string: p.find('span').string 
                  for p in soup.find_all('p', class_='info') }

編輯：

如果您需要建立一個數據框，

您有給定序列對的DataFrame.from_items方法：

values = [(p.find('b').string, p.find('span').string) 
             for p in soup.find_all('p', class_='info')]
value_df = pandas.DataFrame.from_items(values)

或者，您可以使用DataFrame.from_dict ：

dict_values = {p.find('b').get_txt():p.find('span').get_txt() 
                  for p in soup.find_all('p', class_='info') }
value_df = pandas.DataFrame.from_dict(dict_values)

Answer 2

如果我正確理解這一點，則需要循環兩次：

header = [b.string for h in soup.find_all('p', class_='info') for b in h.find_all('b')]

Answer 3

您只發現了帶有soup.find的第一個p像使用b標簽一樣使用soup.find_all

使用Beautiful Soup和python檢索值

問題描述

3 個解決方案

解決方案1
1 2017-10-22 08:07:25

解決方案2
1 2017-10-22 08:11:43

解決方案3
0 2017-10-22 08:03:13

使用Beautiful Soup和python檢索值

問題描述

3 個解決方案

解決方案1 1 2017-10-22 08:07:25

解決方案2 1 2017-10-22 08:11:43

解決方案3 0 2017-10-22 08:03:13

解決方案1
1 2017-10-22 08:07:25

解決方案2
1 2017-10-22 08:11:43

解決方案3
0 2017-10-22 08:03:13