从BeautifulSoup.findAll创建行列表的更优雅的方法

Question

我正在使用BeautifulSoup编写Web解析器。 我创建了一个由bs.findAll(text=True)生成的行的列表，然后将行拆分为一行并在其中应用我的逻辑。 html_payload是任意网页。

到目前为止，我的代码可以工作，但是它不是很漂亮，让我认为必须有一种更好，更愚蠢的编写方式。

    data_to_parse = BeautifulSoup(html_payload)
    lines_to_parse = []

    d = data_to_parse.findAll(text=True)
    for line in d:
        for line2 in line.strip().split('\n'):
            if line2:
                lines_to_parse.append(line2)

    for line in lines_to_parse:
        pass # here's where I start analyzing results

有谁能提出解决这个问题的更好方法？

Answer 1

只需一次获取所有文本并将其分成几行：

data_to_parse = BeautifulSoup(html_payload)
for line in data_to_parse.get_text().split("\n"):
    pass  # ... do something

Answer 2

您可以使用列表理解：

lines_to_parse = [line2 for line in data_to_parse.findAll(text=True) for line2 in line.strip().split('\n') if line2]

或者，您实际上可以结合收集和分析步骤：

d = data_to_parse.findAll(text=True)
for line in d:
     for line2 in line.strip().split('\n'):
         if line2:
             # analyze here

或者，请记住，您并没有大量使用BeautifulSoup ， xmltodict可能会帮助您将数据收集到列表中，看看。

希望能有所帮助。

从BeautifulSoup.findAll创建行列表的更优雅的方法

问题描述

2 个解决方案

解决方案1
1 已采纳 2013-08-23 22:11:11

解决方案2
1 2013-08-23 22:11:22

从BeautifulSoup.findAll创建行列表的更优雅的方法

问题描述

2 个解决方案

解决方案1 1 已采纳 2013-08-23 22:11:11

解决方案2 1 2013-08-23 22:11:22

解决方案1
1 已采纳 2013-08-23 22:11:11

解决方案2
1 2013-08-23 22:11:22