尝试使用 beautifulsoup 刮取产品细节，如品牌和风味

Question

任何人都可以帮助我使用 beautifulsoup 将 Flavor 和品牌详细信息作为键值对进行抓取。 我是新来的：

所需的 output 将是

口味 - 青苹果

品牌 - Carabau

html 看起来像这样： Html 代码 -

<tr class="a-spacing-small">
<td class="a-span3">
    <span class="a-size-base a-text-bold">Flavour</span>
</td>

<td class="a-span9">
    <span class="a-size-base">Green Apple</span>
</td>

<tr class="a-spacing-small">
<td class="a-span3">
    <span class="a-size-base a-text-bold">Brand</span>
</td>

<td class="a-span9">
    <span class="a-size-base">Carabau</span>
</td>

Answer 1

from bs4 import BeautifulSoup

html = '''
    <tr class="a-spacing-small">
    <td class="a-span3">
        <span class="a-size-base a-text-bold">Flavour</span>
    </td>
    
    <td class="a-span9">
        <span class="a-size-base">Green Apple</span>
    </td>
    <tr class="a-spacing-small">
    <td class="a-span3">
        <span class="a-size-base a-text-bold">Brand</span>
    </td>
    
    <td class="a-span9">
        <span class="a-size-base">Carabau</span>
    </td>
    '''

soup = BeautifulSoup(html,'html.parser')
first_element = soup.find_all('td', {'class': 'a-span3'})
second_element = soup.find_all('td', {'class': 'a-span9'})

for first_attribute,second_attribute in zip(first_element,second_element):
    print("{} - {}".format(first_attribute.text.strip(),second_attribute.text.strip()))

Can be done using BeautifulSoup, this will get you the desired output, if you are reading HTML from a URL, you would need to apply some changes by replacing the HTML with fetched content raw content.

Answer 2

你可以这样做。

Select 表行<tr>使用.find_all() 。 这将为您提供<tr>标签列表。
对于每个<tr> ，获取它的文本并以您需要的方式打印它们。

这是完整的代码：

from bs4 import BeautifulSoup

s = """
<tr class="a-spacing-small">
<td class="a-span3">
    <span class="a-size-base a-text-bold">Flavour</span>
</td>

<td class="a-span9">
    <span class="a-size-base">Green Apple</span>
</td>
<tr class="a-spacing-small">
<td class="a-span3">
    <span class="a-size-base a-text-bold">Brand</span>
</td>

<td class="a-span9">
    <span class="a-size-base">Carabau</span>
</td>
"""
soup = BeautifulSoup(s, 'lxml')
for tr in soup.find_all('tr'):
    print(' - '.join(list(tr.stripped_strings)))

Output：

Flavour - Green Apple
Brand - Carabau

尝试使用 beautifulsoup 刮取产品细节，如品牌和风味

问题描述

2 个解决方案

解决方案1
1 2021-11-17 17:06:09

解决方案2
0 2021-11-18 10:33:06

尝试使用 beautifulsoup 刮取产品细节，如品牌和风味

问题描述

2 个解决方案

解决方案1 1 2021-11-17 17:06:09

解决方案2 0 2021-11-18 10:33:06

解决方案1
1 2021-11-17 17:06:09

解决方案2
0 2021-11-18 10:33:06