파이썬에서 XML 파일이나 문자열을 파싱하고, Tag나 attribute 별로 Element를 읽는 방법을 소개합니다.

1. XML 파일 파싱

ElementTree.parse(file)는 인자로 전달된 파일을 파싱하고 ElementTree 객체로 리턴합니다.

import xml.etree.ElementTree as ET


filePath = "./example.xml"
tree = ET.parse(filePath)
ET.dump(tree)

Output:

<Countries><Korea><City>Seoul</City></Korea><Japanese><City>Tokyo</City></Japanese></Countries>

1.1 파싱한 객체를 보기 좋게 출력 : Text에 Tab, 개행 문자 추가

위의 코드에서, _pretty_print()를 추가로 구현하여, 파싱한 xml 객체의 text에 Tab과 개행 문자를 추가하면 다음과 같이 보기 좋게 출력할 수 있습니다.

import xml.etree.ElementTree as ET


def _pretty_print(current, parent=None, index=-1, depth=0):
    for i, node in enumerate(current):
        _pretty_print(node, current, i, depth + 1)
    if parent is not None:
        if index == 0:
            parent.text = '\n' + ('\t' * depth)
        else:
            parent[index - 1].tail = '\n' + ('\t' * depth)
        if index == len(parent) - 1:
            current.tail = '\n' + ('\t' * (depth - 1))


filePath = "./example.xml"
tree = ET.parse(filePath)

_pretty_print(tree.getroot())

ET.dump(tree)

Output:

<Countries>
	<Korea>
		<City attr1="value1" attr2="value2">Seoul</City>
	</Korea>
	<Japanese>
		<City attr1="value1" attr2="value2">Tokyo</City>
	</Japanese>
</Countries>

2. XML 문자열 파싱

ElementTree.fromstring()은 XML 문자열을 인자로 받고, 파싱한 결과를 Element 객체로 리턴합니다.

import xml.etree.ElementTree as ET


xml_str = "<Countries><Korea><City>Seoul</City></Korea><Japanese><City>Tokyo</City></Japanese></Countries>"

element = ET.fromstring(xml_str)
ET.dump(element)

Output:

<Countries><Korea><City>Seoul</City></Korea><Japanese><City>Tokyo</City></Japanese></Countries>

3. XML 파싱하고, 요소 별로 읽기

다음과 같이 XML을 파싱하여 Element 객체를 얻고 요소 별로 접근할 수 있습니다. findall()로 모든 태그를 찾을 수 있고, attrib로 Element의 attribute에 접근할 수 있습니다. XML의 텍스트는 text로 접근할 수 있습니다. Element의 하위 Element는 find()나 findall()로 접근할 수 있습니다.

import xml.etree.ElementTree as ET


xml_str = '''<?xml version='1.0' encoding='utf-8'?>
<Countries>
    <Country name="Korea">
        <City attr1="value1" attr2="value2">Seoul</City>
    </Country>
    <Country name="Japanese">
        <City attr1="value1" attr2="value2">Tokyo</City>
    </Country>
</Countries>
'''

root = ET.fromstring(xml_str)

for country in root.findall("Country"):
    attr = country.attrib
    name = attr.get("name")
    city = country.find("City")
    city_name = city.text
    city_attr1 = city.attrib.get("attr1")
    city_attr2 = city.attrib.get("attr2")
    print(f"attr : {attr}")
    print(f"name : {name}")
    print(f"attr : {attr}")
    print(f"city_name : {city_name}")
    print(f"city_attr1 : {city_attr1}")
    print(f"city_attr2 : {city_attr2}")

Output:

attr : {'name': 'Korea'}
name : Korea
attr : {'name': 'Korea'}
city_name : Seoul
city_attr1 : value1
city_attr2 : value2
attr : {'name': 'Japanese'}
name : Japanese
attr : {'name': 'Japanese'}
city_name : Tokyo
city_attr1 : value1
city_attr2 : value2

Loading script...

Python - XML 파싱, 태그 또는 요소 별로 읽기

1. XML 파일 파싱

1.1 파싱한 객체를 보기 좋게 출력 : Text에 Tab, 개행 문자 추가

2. XML 문자열 파싱

3. XML 파싱하고, 요소 별로 읽기

Related Posts

What's New

ESLint warning, Expected '===' and instead saw '==' eqeqeq

React/nextJs 에러 해결 : Type '{ async: true; src: string; crossorigin: string; }' is not assignable to type

Javascript - 현재 날짜/시간을 항상 한국 기준으로 가져오기

Android 14 - 사진/동영상 파일, 일부 접근 권한 소개

Javascript - 문자열 사이에 문자 넣기

Javascript - 버튼 활성화/비활성화 시키는 방법

Javascript - 버튼 이름 변경하기

Related posts in PYTHON

Python - Yaml 파일 파싱하는 방법

Python - 파일 내용 삭제

Python - for문에서 리스트 순회 중 요소 값 제거

Python - 두 리스트에서 공통 요소 값 찾기

Python - 문자열 앞(뒤)에 0으로 채우기

Python - 공백으로 문자열 분리

Python - 중첩 리스트 평탄화(1차원 리스트 변환)

Python - XML 파싱, 태그 또는 요소 별로 읽기

1. XML 파일 파싱

1.1 파싱한 객체를 보기 좋게 출력 : Text에 Tab, 개행 문자 추가

2. XML 문자열 파싱

3. XML 파싱하고, 요소 별로 읽기

Related Posts

Categories

What's New

Related posts in PYTHON