[英]Retrive <b> value using Beautiful Soup and python
以下是html頁面的示例。 嘗試創建一個數據集,其中標簽<b>
下的值為標頭,標簽<span>
下的值為標頭。 該怎么做。 請幫忙。
<div class ="profile">
<P class="info">
<b>Full name</b>
<span>Raju Kumar</span>
</p>
<P class="info">
<b>DOB</b>
<span>05/06/1992</span>
</p>
<P class="info">
<b>DOB</b>
<span>05/06/1992</span>
</p>
</div>
下面是我嘗試獲取<b>
標簽值作為標題的嘗試。 但它僅返回第一個<b>
標記值。
header = [h.string for h in soup.find('p', class_='info').find_all('b')]
您可以使用以下行獲取列表:
values = [(p.find('b').string, p.find('span').string)
for p in soup.find_all('p', class_='info')]
如果您更喜歡字典格式:
dict_values = {p.find('b').string: p.find('span').string
for p in soup.find_all('p', class_='info') }
編輯:
如果您需要建立一個數據框,
您有給定序列對的DataFrame.from_items方法:
values = [(p.find('b').string, p.find('span').string)
for p in soup.find_all('p', class_='info')]
value_df = pandas.DataFrame.from_items(values)
或者,您可以使用DataFrame.from_dict :
dict_values = {p.find('b').get_txt():p.find('span').get_txt()
for p in soup.find_all('p', class_='info') }
value_df = pandas.DataFrame.from_dict(dict_values)
如果我正確理解這一點,則需要循環兩次:
header = [b.string for h in soup.find_all('p', class_='info') for b in h.find_all('b')]
您只發現了帶有soup.find
的第一個p
像使用b
標簽一樣使用soup.find_all
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.