JavaRush /جاوا بلاگ /Random-UR /3 примера как разобрать HTML-файл в Java используя Jsoup

سطح

28 February 2021
39 views
0 comments

3 примера как разобрать HTML-файл в Java используя Jsoup

3 примера How разобрать HTML-файл в Java используя Jsoup - 1

HTML это ядро WEB, все интернет-pages которые Вы видите, являются ли они динамически сгенерированы средствами JavaScript, JSP, PHP, ASP or другими веб-технологиями, основаны на HTML. На самом деле, Ваш браузер разбирает HTML и отображает его в удобном для Вас виде. Но что делать если Вам нужно разобрать HTML-document и найти в нем некоторый элемент, тэг, атрибут or проверить существует or нет конкретный элемент при помощи программы на Java. Если бы Вы были Java программистом уже несколько лет, я уверен, Вы бы сделали XML разбор используя parserы вроде DOM or SAX. Но, по иронии судьбы, бывают случаи, когда Вам необходимо разобрать HTML-document из базового Java applications, которое не содержит Servlet и другие Java веб-технологии. Более того, Core JDK также не содержит HTTP or HTML библиотек. Вот почему, когда дело доходит до разбора HTML file, многие Java программисты спрашивают у Google, How получить meaning HTML-тэга в Java. Когда я столкнулся с этим, я был уверен что решением будет open-source библиотека, осуществляющая нужную мне функциональность, но я не знал, что она будет такой замечательной и многофункциональной How Jsoup. Она не только обеспечивает поддержку чтения и разбора HTML файлов, атрибутов, CSS классов в стиле JQuery, но и в то же время, позволяет модифицировать их. Используя Jsoup Вы можете сделать с HTML documentом все что угодно. В этой статье мы будем разбирать HTML файл и находить названия и атрибуты тэгов. Также мы разберем примеры скачивания и разбора HTML из file и любого URL-address, например домашнюю page Google.

What такое Jsoup

Jsoup это open-source Java библиотека для работы с реальным HTML. Она обеспечивает очень удобный API для извлечения и манипулирования данными, используя лучшие DOM, CSS, и JQuery-подобные методы. Jsoup реализует WHATWG HTML5 спецификацию, и разбирает HTML в ту же модель DOM, How это делают современные браузер вроде Chrome и Firefox. Вот некоторые из полезных функций Jsoup библиотеки:

Jsoup может очистить и разобрать HTML из URL, file or строки.
Jsoup может найти и извлечь данные используя обход DOM or CSS селекторы.
Jsoup позволяет манипулировать HTML elementми, атрибутами и текстом.
Jsoup обеспечивает очистку предоставленной пользователем информации по white-list, для предотвращения XSS атак.
Также Jsoup выдает "аккуратный" HTML.

Jsoup предназначен для работы с различными видами HTML существующими в реальном мире, включая должным образом подтвержденный HTML c неполным неподтвержденным набором тэгов. Одно из основных преимуществ Jsoup это его надежность.

Разбор HTML в Java используя Jsoup

В этом учебнике мы увидим три различных примера разбора и обхода HTML-documentа в Java используя Jsoup. В первом примере, мы будем разбирать HTML строку, содержащую тэги, в форме строкового литерала Java. Во втором примере, мы скачаем наш HTML-document из интернет, и в третьем примере, мы загрузим для разбора наш собственный образец HTML file login.html. Этот файл — образец HTML documentа, который состоит из тэга "title" и тэга "div" в секции "body", который содержит HTML форму. В форме находятся поля для ввода имени пользователя и пароля, а также кнопки сброса и подтверждения для дальнейших действий. Это "правильный" HTML, который может пройти проверку на «валидность», то есть все тэги и атрибуты правильно закрыты. Вот How выглядит наш HTML файл:


<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
        <title>Login Page</title>
    </head>
    <body>
        <div id="login" class="simple" >
            <form action="login.do">
                Username : <input id="username" type="text" /><br>
                Password : <input id="password" type="password" /><br>
                <input id="submit" type="submit" />
                <input id="reset" type="reset" />
            </form>
        </div>
    </body>
</html>

С помощью Jsoup очень просто разобрать HTML, все что Вам нужно это вызвать статический метод Jsoup.parse() и передать в него Вашу HTML строку. Jsoup предоставляет несколько перегруженных методов parse() для чтения HTML из строки, file, из базового URI, из URL и из InputStream. Вы также можете указать codeировку, для корректного чтения HTML file, в случае если он не в формате "UTF-8". Метод parse(String html) разбирает входящий HTML в новый an object Document. В Jsoup класс Document наследует класс Element, который расширяет класс Node. Также от класса Node наследуется класс TextNode. До тех пор, пока Вы передаете в метод строку отличную от null, Вы гарантированно имеете успешный, осмысленный разбор, an object Document содержащий (по крайней мере) элементы "head" и "body". Если у Вас есть an object Document, Вы можете получить желаемые данные вызвав соответствующие методы класса Document и его родителей Element и Node.

Java программа для разбора HTML documentа

Вот наша полная программа для разбора HTML-строки, HTML-file, скачанного из интернет и локального HTML file. Для ее запуска Вы можете использовать IDE (Eclipse or любую другую) or командную строку. В Eclipse это очень легко, просто скопируйте этот code, создайте новый Java проект, щелкните правой кнопкой мыши по папке "src" и вставьте скопированный code (paste). Eclipse позаботится о создании надлежащего пакета и file исходного codeа с соответствующим именем, так гораздо меньше работы. Если у Вас уже есть Java проект, тогда это всего один шаг. Расположенная ниже программа иллюстрирует три примера разбора и обхода HTML file. В первом примере, мы непосредственно разбираем строку, содержащую HTML, во втором HTML-файл скачанный из URL, в третьем мы загружаем и разбираем HTML-document из локальной файловой системы.


import java.io.File;
import java.io.IOException;
  
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
  
/**
* Java Program to parse/read HTML documents from File using Jsoup library.
* Jsoup is an open source library which allows Java developer to parse HTML
* files and extract elements, manipulate data, change style using DOM, CSS and
* JQuery like method.
*
* @author Javin Paul
*/
public class HTMLParser{
  
    public static void main(String args[]) {
  
        // Parse HTML String using JSoup library
        String HTMLSTring = "<!DOCTYPE html>"
                + "<html>"
                + "<head>"
                + "<title>JSoup Example</title>"
                + "</head>"
                + "<body>"
                + "<table><tr><td><h1>HelloWorld</h1></tr>"
                + "</table>"
                + "</body>"
                + "</html>";

        Document html = Jsoup.parse(HTMLSTring);
        String title = html.title();
        String h1 = html.body().getElementsByTag("h1").text();
  
        System.out.println("Input HTML String to JSoup :" + HTMLSTring);
        System.out.println("After parsing, Title : " + title);
        System.out.println("Afte parsing, Heading : " + h1);
  
        // JSoup Example 2 - Reading HTML page from URL
        Document doc;
        try {
            doc = Jsoup.connect("http://google.com/").get();
            title = doc.title();
        } catch (IOException e) {
            e.printStackTrace();
        }
  
        System.out.println("Jsoup Can read HTML page from URL, title : " + title);
  
        // JSoup Example 3 - Parsing an HTML file in Java
        //Document htmlFile = Jsoup.parse("login.html", "ISO-8859-1"); // wrong
        Document htmlFile = null;
        try {
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } // right
        title = htmlFile.title();
        Element div = htmlFile.getElementById("login");
        String cssClass = div.className(); // getting class form HTML element

        System.out.println("Jsoup can also parse HTML file directly");
        System.out.println("title : " + title);
        System.out.println("class of div tag : " + cssClass);
    }
}

Output:


Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html>
After parsing, Title : JSoup Example
Afte parsing, Heading : HelloWorld
Jsoup Can read HTML page from URL, title : Google
Jsoup can also parse HTML file directly
title : Login Page
class of div tag : simple

Jsoup HTML parser будет прилагать все усorя, для создания "чистого" разбора, предоставленного Вами HTML, независимо от того, правильно он сформирован or нет. Он может обрабатывать следующие ошибки:

незакрытые тэги. Например, Java Scala to Java Scala
подразумеваемые тэги. Например, открытые <td>Java is Great</td> будут обернуты в <table><tr><td>
Jsoup создает надежные структуры documentа (HTML содержит head и body, при этом в body только соответствующие элементы)

Jsoup является отличной и надежной open-source библиотекой, которая делает чтение html documentа, фрагментов body, html строк и непосредственный разбор html содержимого веб, очень простым.

تبصرے

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION