无法使用 html.parser 提取 web 页面的内容

Question

我正在尝试使用 Python 脚本从 Fidelity Investments 抓取页面。 我对 Beautifulsoup 有一个问题，经过多次尝试后我无法解决。

我的代码：

    soup = BeautifulSoup(driver.page_source,"html.parser")
    newResult = soup.find_all("span", class_="account-selector--tab-row account-selector--account-balance js-acct-balance ")
    print(newResult)
    try:
       print(newResult.contents)
    except:
       print("Failed newResult.contents")

我得到的结果：

    [<span class="account-selector--tab-row account-selector--account-balance js-acct-balance ">
        $3,980.00</span>]
    Failed newResult.contents

我的问题：

如何将$3,980.00放入字符串变量/对象。

我尝试了很多方法，但未能从newResult中提取任何内容。 例如，我尝试在 try 块中打印newResult.text 、 newResult.string.strip() 、 newResult.getText 、 newResult.get_text 、 newResult.contents 、 newResult.stripped_strings 。 所有这些都导致从 except 块执行代码。

请注意， newResult包含一个换行符和几个不可见的制表符。 我不知道这是否有区别。 任何帮助将不胜感激，因为我无能为力。

Answer 1

怎么了？

soup.find_all()创建与您的选择匹配的span元素列表，您无法直接访问内容。

怎么修？

选项#1 - 遍历你的newResult以获取每个span的文本：

soup = BeautifulSoup(driver.page_source,"html.parser")
newResult = soup.find_all("span", class_="account-selector--tab-row account-selector--account-balance js-acct-balance ")
print(newResult)
for item in newResult:
    try:
       print(item.get_text(strip=True))
    except:
       print("Failed item.get_text(strip=True)")

选项#2 - 如果它只是您想要获取的一个元素，请使用find()而不是find_all() ：

soup = BeautifulSoup(driver.page_source,"html.parser")
newResult = soup.find("span", class_="account-selector--tab-row account-selector--account-balance js-acct-balance ")
print(newResult)
try:
    print(newResult.get_text(strip=True))
except:
   print("Failed item.get_text(strip=True)")

无法使用 html.parser 提取 web 页面的内容

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-03-09 07:07:17

怎么了？

怎么修？

无法使用 html.parser 提取 web 页面的内容

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-03-09 07:07:17

怎么了？

怎么修？

解决方案1
0 已采纳 2021-03-09 07:07:17