简体   繁体   English

XML 解析 Python ElementTree - 嵌套 for 循环

[英]XML Parsing Python ElementTree - Nested for loops

I'm using Jupyter Notebook and ElementTree (Python 3) to create a dataframe and save as csv from an XML file.我正在使用 Jupyter Notebook 和 ElementTree (Python 3) 创建 dataframe 并从 XML 文件中另存为 csv。 Here is the XML format (in Estonian):这是 XML 格式(爱沙尼亚语):

<asutused hetk="2020-04-14T03:53:33" ver="2">
    <asutus>
        <registrikood>10000515</registrikood>
        <nimi>Osaühing B.Braun Medical</nimi>
        <aadress />
        <tegevusload>
            <tegevusluba>
                <tegevusloa_number>L04647</tegevusloa_number>
                <alates>2019-12-10</alates>
                <kuni />
                <loaliik_kood>1</loaliik_kood>
                <loaliik_nimi>Eriarstiabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
            <tegevusluba>
                <tegevusloa_number>L04651</tegevusloa_number>
                <alates>2019-12-11</alates>
                <kuni />
                <loaliik_kood>2</loaliik_kood>
                <loaliik_nimi>Õendusabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
        </tegevusload>
        <tootajad>
            <tootaja>
                <kood>D03091</kood>
                <eesnimi>Evo</eesnimi>
                <perenimi>Kaha</perenimi>
                <kutse_kood>11</kutse_kood>
                <kutse_nimi>Arst</kutse_nimi>
                <erialad>
                    <eriala>
                        <kood>E420</kood>
                        <nimi>üldkirurgia</nimi>
                    </eriala>
                </erialad>
            </tootaja>
            <tootaja>
                <kood>N01146</kood>
                <eesnimi>Karmen</eesnimi>
                <perenimi>Mežulis</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N01153</kood>
                <eesnimi>Nele</eesnimi>
                <perenimi>Terras</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N02767</kood>
                <eesnimi>Helena</eesnimi>
                <perenimi>Tern</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N12882</kood>
                <eesnimi>Hanna</eesnimi>
                <perenimi>Leemet</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
        </tootajad>
    </asutus>
</asutused>

Each "asutus" is a hospital and I need some of the information inside.每个“asutus”都是一家医院,我需要里面的一些信息。 Here is my code:这是我的代码:

tree = ET.parse("od_asutused.xml")
root = tree.getroot()

# open a file for writing
data = open('EE.csv', 'w')

# create the csv writer object
csvwriter = csv.writer(data, delimiter=';')
head = []

count = 0
for member in root.findall('asutus'):
    hospital = []
    if count == 0:
        ident = member.find('registrikood').tag
        head.append(id)
        name = member.find('nimi').tag
        head.append(name)
        address = member.find('aadress').tag
        head.append(address)
        facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').tag
        head.append(facility_type)
        site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').tag
        head.append(site_address)
        for elem in member.findall('tegevusload'):
            list_specs = elem.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').tag
            head.append(list_specs)
        csvwriter.writerow(head)
        count = count + 1

    ident = member.find('registrikood').text
    hospital.append(ident)
    name = member.find('nimi').text
    hospital.append(name)
    address = member.find('aadress').text
    hospital.append(address)
    facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').text
    hospital.append(facility_type)
    site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').text
    hospital.append(site_address)
    for spec in elem.findall('tegevusload'):
        list_specs = spec.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').text
        hospital.append(list_specs)
    csvwriter.writerow(hospital)
data.close()

#Upload csv for geocoding
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

#Rename columns
df.rename(columns = {'<built-in function id>':'id', 
                     'nimi':'name',
                     'aadress':'address',
                     'haiglaliik_nimi':'facility_type',
                     'haiglaliik_kood':'facility_type_c',
                     'aadress.1':'site_address',
                     'nimi.1':'list_specs'},
          inplace = True) 

#Add columns
df['country'] = 'Estonia' 
df['cc'] = 'EE'

df.head(10)

And the result of the df.head(10): df.head(10) 的结果:

Result of dataframe dataframe 的结果

The "list_specs" is blank no matter what I do.无论我做什么,“list_specs”都是空白的。 How can I populate this field with a list of each 'nimi' for each site address?如何使用每个站点地址的每个“nimi”列表填充此字段? Thank you.谢谢你。

I found in your code the following points to change:我在您的代码中发现以下几点需要更改:

  1. At least on my computer, calling csv.writer causes that newline chars are doubled .至少在我的电脑上,调用csv.writer会导致换行符加倍 The remedy I found is to open the output file with additional parameters:我找到的补救方法是用附加参数打开output文件:

     data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
  2. There is no sense to write head with Estonian column names and then rename the columns.用爱沙尼亚列名写head然后重命名列是没有意义的。 Note also that in head.append(id) you use an undeclared variable ( id ).另请注意,在head.append(id)中,您使用未声明的变量( id )。 But this is not so important, as I changed this whole section with writing target column names (see below).但这并不是那么重要,因为我通过编写目标列名更改了整个部分(见下文)。

  3. As you write the CSV file to be read by read_csv , it should contain a fixed number of columns.当您编写要由read_csv读取的 CSV 文件时,它应该包含固定数量的列。 So it is a bad practice to use a loop to write one element.因此,使用循环编写一个元素是一种不好的做法。

  4. Your instruction list_specs = elem.findall(...) was wrong, because elem is not set in the current loop.您的指令list_specs = elem.findall(...)是错误的,因为elem未在当前循环中设置。 Instead you should use member (but I solved this detail other way).相反,您应该使用member (但我以其他方式解决了这个细节)。

  5. There is no sense to create a variable only in order to use it once.仅仅为了使用一次而创建一个变量是没有意义的。 More concise and readable code is eg hospital.append(member.findtext('nimi')) .更简洁易读的代码例如是hospital.append(member.findtext('nimi'))

  6. To avoid long XPath expressions, with repeated initial part, I decided to set a temporary variable "in the middle" of this path, eg tgvLb = member.find('tegevusload/tegevusluba') and then use a relative XPath starting from this node.为了避免冗长的XPath表达式,重复初始部分,我决定在此路径的“中间”设置一个临时变量,例如tgvLb = member.find('tegevusload/tegevusluba')然后使用从该节点开始的相对XPath .

  7. Your rename instruction contains one not needed column, namely facility_type_c .您的重命名指令包含一个不需要的列,即facility_type_c You read only 6 columns, not 7 .您只阅读了6列,而不是7

So change the middle part of your code to:因此,将代码的中间部分更改为:

data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
csvwriter = csv.writer(data, delimiter=';')
head = ['id', 'name', 'address', 'facility_type', 'site_address', 'list_specs']
csvwriter.writerow(head)
for member in root.findall('asutus'):
    hospital = []
    hospital.append(member.findtext('registrikood'))
    hospital.append(member.findtext('nimi'))
    hospital.append(member.findtext('aadress'))
    tgvLb = member.find('tegevusload/tegevusluba')
    hospital.append(tgvLb.findtext('haiglaliik_nimi'))
    tgvKoht = tgvLb.find('tegevuskohad/tegevuskoht')
    hospital.append(tgvKoht.findtext('aadress'))
    hospital.append(tgvKoht.findtext('teenused/teenus/nimi'))
    csvwriter.writerow(hospital)
data.close()
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

and drop df.rename from your code.并从您的代码中删除df.rename

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM