[英]BeautifulSoup find_all in a list
我试图两次使用BeautifulSoup find_all命令。 我第一次使用它来查找所有表标签。 然后,我在循环中添加了一些if语句,以缩小我添加到列表中的表标签的数量。 最后,我尝试在列表上使用find_all命令,并收到错误“'列表'对象没有属性'查找'”。
我知道错误基本上是说find_all无法浏览列表,但是我无法想到其他任何方式来整理数据。 无论如何,我可以解决该错误或尝试其他任何命令。
result = requests.get("https://www.sec.gov/Archives/edgar/data/861838/000095013509003622/0000950135-09-003622.txt")
src = result.content
soup = BeautifulSoup(src, "html.parser")
table = soup.find_all("table")
tbl = len(table)
sort1 = []
i = 0
while i < tbl - 1:
i = i + 1
if ("sale" in table[i].text) or ("revenue" in table[i].text):
if "expense" in table[i].text:
if "income" in table[i].text:
sort1.append(table[i].text)
# error shows up here
td = sort1.find_all("td")
尝试这个:
td = []
i = 0
for tag in table:
if ("sale" in tag.text) or ("revenue" in tag.text):
if ("expense" in tag.text) and ("income" in tag.text):
td.append(table[i].find("td"))
它将找到的任何<td>
添加到列表中。
我认为您的logis使用:contains
(bs4 4.7.1)与以下操作相同
基本上
table:contains(sale):contains(expense):contains(income)
销售,费用和收入表
要么
table:contains(revenue):contains(expense):contains(income)')
收入,费用和收入表
在示例中返回两个表。
import requests
from bs4 import BeautifulSoup as bs
result = requests.get("https://www.sec.gov/Archives/edgar/data/861838/000095013509003622/0000950135-09-003622.txt")
src = result.content
soup = bs(src, "lxml")
sort1 = [i.text for i in soup.select('table:contains(sale):contains(expense):contains(income), table:contains(revenue):contains(expense):contains(income)')]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.