[英]Date and Time Extraction from an XML File: Python
下面的代碼是用python編寫的
import os
import lxml.etree as ET
import re
os.chdir(r'C:\Users\Wadi\Desktop')
tree = ET.parse('XMLData.xml')
pathology_case_retrieval_report = tree.getroot()
根元素的第0個子元素(Pathology_case_retrieval_report)是report_info標記。 此標記不包含有關任何特定情況的信息。 個別情況以CASE在根元素的索引1開始。
for case in pathology_case_retrieval_report[1:]:
所有CASE都有3個子標記:caseAccesion,caseDetails和caseReport。
for caseAccesion_caseDetails_caseReport in case:
for reportSection in caseAccesion_caseDetails_caseReport:
for title_text in reportSection:
if title_text.tag == 'TITLE':
if title_text.text == 'Gross Description':
x = 'Gross Description'+ ':' +title_text.getnext().text
print(x)
我們只在REPORT_SECTION內部尋找TITLE標簽。 在REPORT_SECTION內的TITLE標記中,我們只關心它們之間有“總描述”的標記。 在REPORT_SECTION內的TITLE標記之間,它們之間有“粗略的描述”,我們只對它的直接(和同級)文本信息感興趣。
這是輸出的示例:
Gross Description: TEXT TEXT TEXT TEXT TEXT.
Specimen collected: d-d-dd/dd:dd. Specimen placed in formalin: dd:dd.
Gross Description: TEXT TEXT TEXT TEXT TEXT Specimen collected: dd:dd. Specimen placed in formalin: dd:dd.
Gross Description: TEXT TEXT TEXT TEXT TEXT.
Specimen collected: d-d-dd/dddd. Specimen placed in formalin: dddd/d-d-dd.
TEXT TEXT TEXT TEXT TEXT
Specimen collected: d-d-dd/dddd. Specimen placed in formalin: dddd/d-d-dd.
我已經編寫了正則表達式來捕獲字符串,“標本已收集:dd-dd / dddd。 標本放在福爾馬林中:dddd / dd-dd'。 但是,我最終只需要捕獲日期和時間(轉換為整數)。 我將如何去做呢?
另外,當我“打印(x)”時,我希望數據看起來像這樣:
1) Gross Description: The specimen,...
Specimen collected: dd:dd. Specimen placed in formalin: dd:dd.
2) Gross Description: Specimen A, ...
Specimen collected: d-d-dd/dddd. Specimen placed in formalin: dddd/d-d-dd.
Specimen B, ...
Specimen collected: d-d-dd/dddd. Specimen placed in formalin: dddd/d-d-dd.
從本質上講,我希望對每個簡要描述進行編號,以便我能夠對其進行跟蹤。 我該如何編號?
先感謝您
將結果數據收集到元組列表中,將計數器變量添加到循環中,將數據添加到元組時,還應在其中添加計數器值。 然后,當您打印出結果(列表)時,然后打印出每個元素,可能是:-計數器值(訂單號); -總描述; -標本信息等
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.