我只想从配置文件名称=“ 4”中提取填充标签。 我在下面编写了一个代码,该代码提取了概要文件名称=“ 4”下的所有内容,但是有没有一种方法可以收集所有的东西标签,或者我必须使用split来将东西放入东西标签中。 我拥有的xml文件更长,因此使用split是可行的,但解析数据将花费更长的时间。

这是python代码

import bs4 as bs

# opens xml file and allows bs4 to parse xml file
xml_file = open('file.xml')
soup = bs.BeautifulSoup(xml_file, 'html.parser')

#extracts and prints all tags under profile name = "4"
stuff = soup.find_all('profile', {'name':"4"})
print stuff

这是xml文件,其名为file.xml。 我想从配置文件名称=“ 4”中提取填充标签

<profiles>
    <profile name="1">
        <content>apple</content>
    </profile>
    <profile name="2">
        <content>peas</content>
    </profile>
    <profile name="3">
        <stuff>bear</stuff>
    </profile>
    <profile name="4">
        <content>cat</content>
        <data>
            <stuff>fish</stuff>
        </data>
        <stuff>hat</stuff>
    </profile>
</profiles>

#1楼 票数:0 已采纳

对内部标签执行相同的操作

print([i.find_all('stuff') for i in stuff])

如果您只需要标签内的数据

for i in stuff:
    for x in i.find_all('stuff'):
        print(x.next) 

输出:

fish
hat

  ask by Ashish Patel translate from so

未解决问题?本站智能推荐:

2回复

使用beautifulsoup4进行xml解析,命名空间问题

在使用beautifulsoup4(根据需要安装了lxml)以xml(word / document.xml)的形式解析.docx文件内容时,我遇到了一个问题。 这部分来自xml: 成为这个: 即使我只是解析文件并保存它,也没有任何修改。 像这样: 或者从python控制台解析x
1回复

如何使用BeautifulSoup4解析此HTML?

我想同时获取日期和状态(在“ Fecha”和“ Estado”下)。 该表中可能会有更多的td标签 带有要解析的HTML的URL <body link="#000000" vlink="#000000" alink="#000000" leftmargin="15" topmargi
1回复

使用BeautifulSoup4解析网页

我尝试从Coursera解析此网页,并从页面下载所有可见文本。 不幸的是,BeautifulSoup4似乎不起作用,我不知道还能做什么。 让我解释 这是代码: 但是, soup变量不包含网页中的任何文本。 我尝试使用'lxml','xml'和'html5lib'解析器但没有任何成功
1回复

如何使用BeautifulSoup4解析数据?

以下是来自.xml文件的示例: 我想做的是,使用beautifulsoup4,我能够提取' title', 'link', 'pubDate' 。 但是问题是“内容:编码”。 在这里,我想从“ content:encoded”中为“ img_list ”提取“ img”。 我已经尝试了
2回复

使用BeautifulSoup4解析数据

import requestsfrom bs4 import BeautifulSouprequest = requests.get("http://www.lolesports.com/en_US/worlds/world_championship_2016/standings/default")
1回复

为什么我不能在Jupyterlab中使用BeautifulSoup4解析本地文件

我正在关注一个网络教程,尝试使用 BeautifulSoup4 从 Jupyterlab 中的 html 文件(存储在我的本地 PC 上)中提取数据,如下所示: 无论 html 文件中的内容是什么,而不是预期的 html,我都会得到以下输出 我也尝试过使用 html 解析器 html.parser
1回复

BeautifulSoup4无法正确解析xml

我试图在Python中使用BeautifulSoup4编写一个xml解析器。 由于某种原因,文档未正确解析。 我的xml文档如下所示: 我编写的Python代码如下所示: 这就是结果: 正如您所看到的,它认为input没有子元素,但事实并非如此。 我做了一些戳,似乎像value
1回复

用BeautifulSoup4解析不​​平衡的html文件

我正在解析部分不带有平衡html标签的html文件。 假设此部分html文件中缺少第一行。 Beautiful Soup是否仍然可以解析其余文件,并且我仍然可以提取不同标签内部的信息? 非常感谢帮忙。