Java 프로그래머를 위한 XML 기초. 3부 중 3.2부 - DOM

<h2>소개</h2>이 기사를 읽는 모든 독자 여러분, 안녕하세요. 이 부분은 DOM에 관한 것입니다. 다음 단계는 JAXB에 관한 것이며 이것으로 XML 기본 주기가 완료됩니다. 먼저 약간의 이론이 있고 그 다음에는 실습만 있을 것입니다. 시작하자. <h2>DOM(문서 객체 모델) - 이론</h2>DOM 핸들러는 모든 XML을 한 번에 읽고 저장하여 쉽게 이동할 수 있는 트리 형태의 계층 구조를 생성하는 방식으로 설계되었습니다. 필요한 요소에 액세스합니다. 따라서 최상위 요소에 대한 링크가 주어지면 내부 요소에 대한 모든 링크를 얻을 수 있습니다. 또한 요소 내부에 있는 요소는 이 요소의 하위 요소이며 해당 요소의 상위 요소입니다. 모든 XML을 메모리로 읽은 후에는 간단히 구조를 살펴보고 필요한 작업을 수행합니다. Java에서 DOM의 프로그래밍 부분에 대해 조금: DOM에는 다양한 데이터를 설명하기 위해 생성된 많은 인터페이스가 있습니다. 이러한 모든 인터페이스는 하나의 공통 인터페이스인 Node.js를 상속합니다. 실제로 DOM에서 가장 일반적인 데이터 유형은 무엇이든 될 수 있는 Node이기 때문입니다. 각 노드에는 정보를 검색하는 데 다음과 같은 유용한 방법이 있습니다.

getNodeName– 호스트 이름을 얻으십시오.
getNodeValue– 노드 값을 가져옵니다.
getNodeType– 노드 유형을 가져옵니다.
getParentNode– 주어진 노드가 위치한 노드를 가져옵니다.
getChildNodes– 모든 파생 노드(주어진 노드 내부에 있는 노드)를 가져옵니다.
getAttributes– 모든 노드 속성을 가져옵니다.
getOwnerDocument– 이 노드의 문서를 가져옵니다.
getFirstChild/getLastChild– 첫 번째/마지막 파생 노드를 가져옵니다.
getLocalName– 접두사 없이 이름을 얻기 위해 네임스페이스를 처리할 때 유용합니다.
getTextContent– 줄 바꿈 및 공백을 포함하여 요소 내의 모든 텍스트와 지정된 요소 내의 모든 요소를 반환합니다.

방법 9에 대한 참고 사항: 네임스페이스 처리를 트리거하기 위해 DocumentFactory에서 setNamespaceAware(true) 방법을 사용하지 않는 한 항상 null을 반환합니다. 이제 중요한 세부 사항입니다. 메소드는 모든 노드에 공통되지만 노드에서는 요소와 속성을 모두 가질 수 있습니다. 그리고 여기에 질문이 있습니다: 요소는 어떤 가치를 가질 수 있습니까? 속성에는 어떤 파생 노드가 있을 수 있나요? 그리고 다른 것들은 일관성이 없습니다. 그리고 모든 것이 매우 간단합니다. 각 방법은 노드 유형에 따라 작동합니다 . 물론 혼동하지 않도록 논리를 사용하는 것으로 충분합니다. 예를 들어, 속성은 어떤 속성을 가질 수 있나요? 요소에는 어떤 다른 의미가 있습니까? 그러나 모든 것을 직접 시도하지 않기 위해 공식 문서에는 노드 유형에 따라 각 방법이 어떻게 작동하는지에 대한 매우 유용한 표가 있습니다.

품질이 좋지 않은 것으로 판명되었으므로 여기에 문서에 대한 링크가 있습니다(표는 다음과 같습니다). 페이지 상단): 노드 문서 기억해야 할 가장 중요한 사항:

요소에만 속성이 있습니다.
요소에는 의미가 없습니다.
요소 노드의 이름은 태그의 이름과 동일하고, 속성 노드의 이름은 속성의 이름과 동일합니다.

<h2>DOM(Document Object Model) - 연습</h2>실습 부분에서는 XML에서 정보를 검색하는 다양한 유형의 작업을 분석합니다. 또한 편의성을 비교하기 위해 이전 기사에서 두 가지 작업을 수행했습니다. 시작해 보겠습니다. 가져오기부터 시작하는 것이 좋습니다.

import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import java.io.File;
import java.io.IOException;

클래스를 혼동하지 않도록 가져오기를 제공합니다 :) 작업 번호 1 - 모든 직원에 대한 정보를 가져와 다음 XML 파일에서 콘솔에 출력해야 합니다.

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<company>
    <name>IT-Heaven</name>
    <offices>
        <office floor="1" room="1">
            <employees>
                <employee name="Maksim" job="Middle Software Developer" />
                <employee name="Ivan" job="Junior Software Developer" />
                <employee name="Franklin" job="Junior Software Developer" />
            </employees>
        </office>
        <office floor="1" room="2">
            <employees>
                <employee name="Herald" job="Middle Software Developer" />
                <employee name="Adam" job="Middle Software Developer" />
                <employee name="Leroy" job="Junior Software Developer" />
            </employees>
        </office>
    </offices>
</company>

보시다시피 직원 요소에 모든 정보가 저장되어 있습니다. 이를 프로그램 어딘가에 저장하기 위해 클래스를 생성해 보겠습니다 Employee.

public class Employee {
    private String name, job;

    public Employee(String name, String job) {
        this.name = name;
        this.job = job;
    }

    public String getName() {
        return name;
    }

    public String getJob() {
        return job;
    }
}

이제 데이터 저장 구조에 대한 설명이 있으므로 직원을 저장할 컬렉션이 필요합니다. 우리는 코드 자체에서 이를 생성할 것입니다. 또한 XML을 기반으로 문서를 생성해야 합니다.

public class DOMExample {
    // Список для сотрудников из XML file
    private static ArrayList<Employee> employees = new ArrayList<>();

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        // Получение фабрики, чтобы после получить билдер documentов.
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

        // Получor из фабрики билдер, который парсит XML, создает структуру Document в виде иерархического дерева.
        DocumentBuilder builder = factory.newDocumentBuilder();

        // Запарсor XML, создав структуру Document. Теперь у нас есть доступ ко всем elementм, Howим нам нужно.
        Document document = builder.parse(new File("resource/xml_file1.xml"));
    }
}

일단 문서를 받으면 우리는 XML 파일의 전체 구조에 대해 무제한의 권한을 갖게 됩니다. 언제든지 모든 요소를 가져올 수 있고, 다시 돌아가 데이터를 확인할 수 있으며, 일반적으로 SAX보다 더 유연한 접근 방식을 사용합니다. 이 작업의 맥락에서는 모든 직원 요소를 추출한 다음 직원에 대한 모든 정보를 추출하면 됩니다. 매우 간단합니다.

public class DOMExample {
    // Список для сотрудников из XML file
    private static ArrayList<Employee> employees = new ArrayList<>();

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        // Получение фабрики, чтобы после получить билдер documentов.
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

        // Получor из фабрики билдер, который парсит XML, создает структуру Document в виде иерархического дерева.
        DocumentBuilder builder = factory.newDocumentBuilder();

        // Запарсor XML, создав структуру Document. Теперь у нас есть доступ ко всем elementм, Howим нам нужно.
        Document document = builder.parse(new File("resource/xml_file1.xml"));

        // Получение списка всех элементов employee внутри корневого element (getDocumentElement возвращает ROOT элемент XML file).
        NodeList employeeElements = document.getDocumentElement().getElementsByTagName("employee");

        // Перебор всех элементов employee
        for (int i = 0; i < employeeElements.getLength(); i++) {
            Node employee = employeeElements.item(i);

            // Получение атрибутов каждого element
            NamedNodeMap attributes = employee.getAttributes();

            // Добавление сотрудника. Атрибут - тоже Node, потому нам нужно получить meaning атрибута с помощью метода getNodeValue()
            employees.add(new Employee(attributes.getNamedItem("name").getNodeValue(), attributes.getNamedItem("job").getNodeValue()));
        }

        // Вывод информации о каждом сотруднике
        for (Employee employee : employees)
            System.out.println(String.format("Информации о сотруднике: Name - %s, должность - %s.", employee.getName(), employee.getJob()));
    }
}

이 솔루션에 대한 설명은 솔루션에 바로 나와 있습니다. 코드를 본 후에는 이론으로 돌아가서 다시 읽어보는 것이 좋습니다. 사실 본능적으로 모든 것이 명확합니다. 댓글을 주의 깊게 읽으세요. 질문이 있으면 안 됩니다. 질문이 있으면 댓글에 쓰거나, 제가 답변해 드리겠습니다. 또는 링크에 쓰거나, IDEA를 실행하고 다음과 같은 경우 직접 코드를 사용해 보세요. 당신은 아직 그렇게하지 않았습니다. 따라서 코드를 실행한 후 다음과 같은 출력을 얻었습니다.

Информации о сотруднике: Name - Maksim, должность - Middle Software Developer.
Информации о сотруднике: Name - Ivan, должность - Junior Software Developer.
Информации о сотруднике: Name - Franklin, должность - Junior Software Developer.
Информации о сотруднике: Name - Herald, должность - Middle Software Developer.
Информации о сотруднике: Name - Adam, должность - Middle Software Developer.
Информации о сотруднике: Name - Leroy, должность - Junior Software Developer.

보시다시피 작업이 성공적으로 완료되었습니다! 다음 작업으로 넘어가겠습니다 :) 작업 번호 2 - 요소의 이름은 콘솔에서 입력되며, 요소 내부의 모든 요소와 해당 속성에 대한 정보를 다음 XML 파일에서 표시해야 합니다.

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <oracle>
        <connection value="jdbc:oracle:thin:@10.220.140.48:1521:test1" />
        <user value="secretOracleUsername" />
        <password value="111" />
    </oracle>

    <mysql>
        <connection value="jdbc:mysql:thin:@10.220.140.48:1521:test1" />
        <user value="secretMySQLUsername" />
        <password value="222" />
    </mysql>
</root>

모든 것은 매우 간단합니다. 이름으로 요소를 가져와서 개수를 계산한 다음 모든 하위 노드를 통과해야 합니다. 이렇게 하려면 요소인 모든 하위 노드의 모든 하위 노드를 반복해야 합니다. 이 문제에 대한 해결책:

public class DOMExample {
    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        // Ридер для считывания имени тега из консоли
        BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));

        // Получение фабрики, чтобы после получить билдер documentов.
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

        // Получor из фабрики билдер, который парсит XML, создает структуру Document в виде иерархического дерева.
        DocumentBuilder builder = factory.newDocumentBuilder();

        // Запарсor XML, создав структуру Document. Теперь у нас есть доступ ко всем elementм, Howим нам нужно.
        Document document = builder.parse(new File("resource/xml_file3.xml"));

        // Считывание имени тега для поиска его в файле
        String element = reader.readLine();

        // Получение списка элементов, однако для удобства будем рассматривать только первое совпадение в documentе.
        // Так же заметьте, что мы ищем элемент внутри documentа, а не рут element. Это сделано для того, чтобы рут элемент тоже искался.
        NodeList matchedElementsList = document.getElementsByTagName(element);

        // Даже если element нет, всегда будет возвращаться список, просто он будет пустым.
        // Потому, чтобы утверждать, что element нет в файле, достаточно проверить размер списка.
        if (matchedElementsList.getLength() == 0) {
            System.out.println("Tag " + element + " не был найден в файле.");
        } else {
            // Получение первого element.
            Node foundedElement = matchedElementsList.item(0);

            System.out.println("Элемент был найден!");

            // Если есть данные внутри, вызов метода для вывода всей информации
            if (foundedElement.hasChildNodes())
                printInfoAboutAllChildNodes(foundedElement.getChildNodes());
        }
    }

    /**
     * Рекурсивный метод, который будет выводить информацию про все узлы внутри всех узлов, которые пришли параметром, пока не будут перебраны все узлы.
     * @param list Список узлов.
     */
    private static void printInfoAboutAllChildNodes(NodeList list) {
        for (int i = 0; i < list.getLength(); i++) {
            Node node = list.item(i);

            // У элементов есть два вида узлов - другие элементы or текстовая информация. Потому нужно разбираться две ситуации отдельно.
            if (node.getNodeType() == Node.TEXT_NODE) {
                // Фильтрация информации, так How пробелы и переносы строчек нам не нужны. Это не информация.
                String textInformation = node.getNodeValue().replace("\n", "").trim();

                if(!textInformation.isEmpty())
                    System.out.println("Внутри element найден текст: " + node.getNodeValue());
            }
            // Если это не текст, а элемент, то обрабатываем его How элемент.
            else {
                System.out.println("Найден элемент: " + node.getNodeName() + ", его атрибуты:");

                // Получение атрибутов
                NamedNodeMap attributes = node.getAttributes();

                // Вывод информации про все атрибуты
                for (int k = 0; k < attributes.getLength(); k++)
                    System.out.println("Name атрибута: " + attributes.item(k).getNodeName() + ", его meaning: " + attributes.item(k).getNodeValue());
            }

            // Если у данного element еще остались узлы, то вывести всю информацию про все его узлы.
            if (node.hasChildNodes())
                printInfoAboutAllChildNodes(node.getChildNodes());
        }
    }
}

솔루션에 대한 전체 설명은 의견에 있지만 이론 그림의 예를 사용하여 우리가 사용한 접근 방식을 약간 그래픽으로 설명하고 싶습니다.

html 태그에 대한 정보를 표시해야 한다고 가정하겠습니다. 보시다시피, 트리의 루트에서 위에서 아래로 이동해야 합니다. 모든 라인은 노드입니다.

솔루션에서는 원하는 요소의 시작 부분부터 모든 노드를 통해 재귀적으로 이동하고 해당 노드 중 하나가 요소인 경우 이 요소의 모든 노드를 반복합니다. 따라서 코드를 실행한 후 루트 요소에 대해 다음과 같은 출력을 얻었습니다.

Элемент был найден!
Найден элемент: oracle, его атрибуты:
Найден элемент: connection, его атрибуты:
Name атрибута: value, его meaning: jdbc:oracle:thin:@10.220.140.48:1521:test1
Найден элемент: user, его атрибуты:
Name атрибута: value, его meaning: secretOracleUsername
Найден элемент: password, его атрибуты:
Name атрибута: value, его meaning: 111
Найден элемент: mysql, его атрибуты:
Найден элемент: connection, его атрибуты:
Name атрибута: value, его meaning: jdbc:mysql:thin:@10.220.140.48:1521:test1
Найден элемент: user, его атрибуты:
Name атрибута: value, его meaning: secretMySQLUsername
Найден элемент: password, его атрибуты:
Name атрибута: value, его meaning: 222

문제가 성공적으로 해결되었습니다! 작업 번호 3 – 학생, 교수, 직원에 대한 정보가 저장되어 있는 다음 XML 파일에서 해당 정보를 읽고 콘솔에 출력해야 합니다.

<?xml version="1.0" encoding="UTF-8"?>
<database>
    <students>
        <student name="Maksim" course="3" specialization="CE" />
        <student name="Stephan" course="1" specialization="CS" />
        <student name="Irvin" course="2" specialization="CE" />
    </students>

    <professors>
        <professor name="Herald" experience="7 years in University" discipline="Math" />
        <professor name="Adam" experience="4 years in University" discipline="Programming" />
        <professor name="Anton" experience="6 years in University" discipline="English" />
    </professors>

    <service>
        <member name="John" position="janitor" />
        <member name="Jordan" position="janitor" />
        <member name="Mike" position="janitor" />
    </service>
</database>

작업은 매우 간단하지만 흥미롭습니다. 먼저, 직원, 교수, 학생이라는 4개의 클래스와 각 클래스의 이름 변수를 공통 분모로 가져오기 위해 공통 추상 클래스 Human을 만들어야 합니다. 추상 상위 클래스

public abstract class Human {
    private String name;

    public Human(String name) {
        this.name = name;
    }

    public String getName() {
        return name;
    }
}

학생

public class Student extends Human {
    private String course, specialization;

    public Student(String name, String course, String specialization) {
        super(name);
        this.course = course;
        this.specialization = specialization;
    }

    public String getCourse() {
        return course;
    }

    public String getSpecialization() {
        return specialization;
    }

    public String toString() {
        return "Голодный студент " + getName() + " " + course + "-го курса, обучающийся по специальности " + specialization;
    }
}

교수

public class Professor extends Human {
    private String experience, discipline;

    public Professor(String name, String experience, String discipline) {
        super(name);
        this.experience = experience;
        this.discipline = discipline;
    }

    public String getExperience() {
        return experience;
    }

    public String getDiscipline() {
        return discipline;
    }

    public String toString() {
        return "Профессор " + getName() + ", обладающий опытом: \"" + experience + "\", выкладает дисциплину " + discipline;
    }
}

직원

public class Member extends Human {
    private String position;

    public Member(String name, String position) {
        super(name);
        this.position = position;
    }

    public String getPosition() {
        return position;
    }

    public String toString() {
        return "Сотрудник обслуживающего персонала " + getName() + ", должность: " + position;
    }
}

이제 수업이 준비되었으므로 모든 요소(student, Professor 및 Member)를 가져온 다음 해당 속성을 가져오는 코드를 작성하면 됩니다. 저장을 위해 우리는 모든 공통 상위 클래스인 Human의 개체를 저장할 컬렉션을 사용합니다. 따라서 이 문제에 대한 해결책은 다음과 같습니다.

public class DOMExample {
    // Коллекция для хранения всех людей
    private static ArrayList<Human> humans = new ArrayList<>();

    // Константы для элементов
    private static final String PROFESSOR = "professor";
    private static final String MEMBER = "member";
    private static final String STUDENT = "student";

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        // Получение фабрики, чтобы после получить билдер documentов.
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

        // Получor из фабрики билдер, который парсит XML, создает структуру Document в виде иерархического дерева.
        DocumentBuilder builder = factory.newDocumentBuilder();

        // Запарсor XML, создав структуру Document. Теперь у нас есть доступ ко всем elementм, Howим нам нужно.
        Document document = builder.parse(new File("resource/xml_file3.xml"));

        // Получение информации про каждый элемент отдельно
        collectInformation(document, PROFESSOR);
        collectInformation(document, MEMBER);
        collectInformation(document, STUDENT);

        // Вывод информации
        humans.forEach(System.out::println);
    }

    /**
     * Метод ищет информацию про теги по имени element и вносит всю информацию в коллекцию humans.
     * @param document Документ, в котором будем искать элементы.
     * @param element Name element, теги которого нужно найти. Должна быть одна из констант, которые определяются выше.
     */
    private static void collectInformation(Document document, final String element) {
        // Получение всех элементов по имени тега.
        NodeList elements = document.getElementsByTagName(element);

        // Перебор всех найденных элементов
        for (int i = 0; i < elements.getLength(); i++) {
            // Получение всех атрибутов element
            NamedNodeMap attributes = elements.item(i).getAttributes();
            String name = attributes.getNamedItem("name").getNodeValue();

            // В зависимости от типа element, нам нужно собрать свою дополнительну информацию про каждый подкласс, а после добавить нужные образцы в коллекцию.
            switch (element) {
                case PROFESSOR: {
                    String experience = attributes.getNamedItem("experience").getNodeValue();
                    String discipline = attributes.getNamedItem("discipline").getNodeValue();

                    humans.add(new Professor(name, experience, discipline));
                } break;
                case STUDENT: {
                    String course = attributes.getNamedItem("course").getNodeValue();
                    String specialization = attributes.getNamedItem("specialization").getNodeValue();

                    humans.add(new Student(name, course, specialization));
                } break;
                case MEMBER: {
                    String position = attributes.getNamedItem("position").getNodeValue();

                    humans.add(new Member(name, position));
                } break;
            }
        }
    }
}

문서에서 이러한 모든 요소를 가져오려면 요소 이름만 필요합니다. 이렇게 하면 필요한 정보를 찾는 과정이 크게 단순화됩니다. 코드에 대한 모든 정보는 주석에 포함되어 있습니다. 이전 작업에 없었던 새로운 것은 사용되지 않았습니다. 코드 출력:

Профессор Herald, обладающий опытом: "7 years in University", выкладает дисциплину Math
Профессор Adam, обладающий опытом: "4 years in University", выкладает дисциплину Programming
Профессор Anton, обладающий опытом: "6 years in University", выкладает дисциплину English
Сотрудник обслуживающего персонала John, должность: janitor
Сотрудник обслуживающего персонала Jordan, должность: janitor
Сотрудник обслуживающего персонала Mike, должность: janitor
Голодный студент Maksim 3-го курса, обучающийся по специальности CE
Голодный студент Stephan 1-го курса, обучающийся по специальности CS
Голодный студент Irvin 2-го курса, обучающийся по специальности CE

문제 해결됨! DOM 사용 시기와 SAX 사용 시기 권장 사항 이러한 도구의 차이점은 기능과 속도에 있습니다. 보다 유연한 기능이 필요하고 프로그램 성능을 낭비할 여유가 있는 경우 선택은 DOM입니다. 그러나 주요 목표가 메모리 비용을 줄이는 것이라면 DOM은 XML 파일에서 모든 정보를 읽고 다음을 수행하므로 최선의 선택이 아닙니다. 그것을 저장합니다. 따라서 SAX 순차 읽기 방법은 비용이 저렴합니다. 간단히 말해서 성능이 필요한 경우 - SAX, 기능 - DOM이 필요합니다. <h2>결론</h2>각 프로그래머는 자신만의 도구를 가지고 있으며 작업에 따라 특정 도구를 사용해야 합니다. SAX와 DOM에 관한 기사에서 나의 목표는 XML 파일에서 정보를 추출하고 필요한 방식으로 처리하는 방법을 가르치는 것이었습니다. 그러나 이 기사를 읽었더라도 이러한 도구를 사용하는 방법을 배웠다고 주장할 수는 없습니다. 연습하고, 기사의 코드를 테스트하고, 작동 방식을 이해하고, 직접 작성해 보아야 합니다. 결국 가장 중요한 것은 연습이다. 마지막 기사는 앞으로 며칠 안에, 대회가 끝난 후에 게시될 예정이며 JAXB에 관한 내용을 다룹니다. JAXB는 프로그램의 개체를 XML 형식으로 저장하는 도구입니다. 이상입니다. 이 기사가 귀하의 프로그래밍에 유용하고 행운이 있기를 바랍니다 :) 이전 기사: [대회] Java 프로그래머를 위한 XML 기초 - 3부 중 3.1부 - SAX

코멘트

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION