在Java中对XML的简单应用

XML 数据传输格式

XML 数据传输格式

1 XML 概述

1.1 什么是 XML

XML 指可扩展标记语言（EXtensible Markup Language）。
XML 是一种很像HTML的标记语言。
XML 的设计宗旨是传输数据，而不是显示数据。
XML 标签没有被预定义。您需要自行定义标签。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准

1.2 XML 与 HTML 的主要差异

XML 不是 HTML 的替代。
XML 和 HTML 为不同的目的而设计：
XML 被设计为传输和存储数据，其焦点是数据的内容。
HTML 被设计用来显示数据，其焦点是数据的外观。
HTML 旨在显示信息，而 XML 旨在传输信息。

**注意：**XML 不会做任何事情。XML 被设计用来结构化、存储以及传输信息。

1.3 XML 不是对 HTML 的替代

XML 是对 HTML 的补充。

XML 不会替代 HTML，理解这一点很重要。在大多数 web 应用程序中，XML 用于传输数据，而 HTML 用于格式化并显示数据。

对 XML 最好的描述是：

XML 是独立于软件和硬件的信息传输工具。

2 XML 语法

2.1 基本语法

XML 文档的后缀名必须为
.xml
XML 第一行必须定义为文档声明

<?xml version='1.0' ?>
XML 文档有且仅有一个根元素

XML 文档必须有一个元素是所有其他元素的

父元素

。该元素称为

根元素

。
```
<root>
 <child>
 <subchild>.....</subchild>
 </child>
</root>
```

XML 的属性值须加引号

在 XML 中，XML 的属性值须加引号。请研究下面的两个 XML 文档。第一个是错误的，第二个是正确的：

<!-- 这是错误的 -->
<note date=08/08/2008>
<to>George</to>
<from>John</from>
</note>

<!-- 这是正确的 -->
<note date="08/08/2008">
<to>George</to>
<from>John</from>
</note>

所有 XML 元素都须有关闭标签

在 XML 中，省略关闭标签是非法的。所有元素都

必须

有关闭标签：
```
This is a paragraph
This is another paragraph 
```
**注意：**XML 声明没有关闭标签。这不是错误。声明不属于XML本身的组成部分。它不是 XML 元素，也不需要关闭标签。
XML 标签对大小写敏感

XML 元素使用 XML 标签进行定义。

XML 标签对大小写敏感。在 XML 中，标签
<Letter>
与标签
<letter>
是不同的。

必须使用相同的大小写来编写打开标签和关闭标签：
```
<Message>这是错误的。</message>

<message>这是正确的。</message> 
```
XML 必须正确地嵌套

在 XML 中，所有元素都

必须

彼此正确地嵌套：
```
This text is bold and italic
```
在上例中，正确嵌套的意思是：由于

元素是在

元素内打开的，那么它必须在

元素内关闭。
XML 会保留空格

在 XML 中，文档中的空格不会被删节。

2.2 快速入门

<?xml version='1.0' ?>
<users>
    <user id='1'>
        <name>zhangsan</name>
        <age>23</age>
        <gender>male</gender>
        <br/>
    </user>

    <user id='2'>
        <name>lisi</name>
        <age>24</age>
        <gender>female</gender>
    </user>
</users>

2.3 组成部分

2.3.1 文档声明

格式

<?xml 属性列表 ?>

属性

version

：版本号

必须添加
encoding

：编码方式告知解析引擎当前文档使用的字符集，默认值：ISO-8859-1
standalone

：是否独立
- 取值：
  - yes: 不依赖其他文件
  - no: 依赖其他文件

2.3.2 指令（了解）：结合CSS

<?xml-stylesheet type="text/css" href="a.css" ?>

2.3.3 元素

XML 命名规则

XML 元素必须遵循以下命名规则：

名称可以含字母、数字以及其他的字符
名称不能以数字或者标点符号开始
名称不能以字符 “xml”（或者 XML、Xml）开始
名称不能包含空格

可使用任何名称，没有保留的字词。

2.3.4 属性

注意：

id属性值唯一

XML 元素 vs. 属性

请看这些例子：

<person sex="female">
  <firstname>Anna</firstname>
  <lastname>Smith</lastname>
</person> 

<person>
  <sex>female</sex>
  <firstname>Anna</firstname>
  <lastname>Smith</lastname>
</person>

在第一个例子中，sex 是一个属性。在第二个例子中，sex 则是一个子元素。两个例子均可提供相同的信息。

没有什么规矩可以告诉我们什么时候该使用属性，而什么时候该使用子元素。我的经验是在 HTML 中，属性用起来很便利，但是在 XML 中，应该尽量避免使用属性。如果信息感觉起来很像数据，那么请使用子元素吧。

2.3.5 文本

CDATA 区段（CDATA section）

术语 CDATA 指的是不应由 XML 解析器进行解析的文本数据（Unparsed Character Data）。

在 XML 元素中，“<” 和 “&” 是非法的。

“<” 会产生错误，因为解析器会把该字符解释为新元素的开始。

“&” 也会产生错误，因为解析器会把该字符解释为字符实体的开始。

某些文本，比如 JavaScript 代码，包含大量 “<” 或 “&” 字符。为了避免错误，可以将脚本代码定义为 CDATA。

CDATA 部分中的所有内容都会被解析器忽略（

原样展示

）。

CDATA 部分由
<![CDATA[
开始，由
]]>
结束：

<![CDATA[
    function matchwo(a,b) {
        if (a < b && a < 0) then {
         	return 1;
        }
        else {
        	return 0;
        }
    }
]]>

在上面的例子中，解析器会忽略 CDATA 部分中的所有内容。

关于 CDATA 部分的注释：

CDATA 部分不能包含字符串
]]>
。也不允许嵌套的 CDATA 部分。
标记 CDATA 部分结尾的
]]>
不能包含空格或折行。

2.4 XML 约束

约束简单来说就是规定 XML 文档的书写规则

对约束的图解：

请添加图片描述

作为框架的使用者(程序员) 要求：

能够在 XML 中引入约束文档
能够简单的读懂约束文档

2.4.1 XML DTD （简单）

文档类型定义（DTD）可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。

DTD 可被成行地声明于 XML 文档中，也可作为一个外部引用。

DTD 的引入

内部DTD

：将约束规则定义在XML文档中

外部DTD

：将约束的规则定义在外部的DTD文件中

- 本地：`<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置">`
- 网络：`<!DOCTYPE 根标签名 PUBLIC "dtd文件名字" "dtd文件的位置URL">`

2.4.2 XML Schema （复杂）

Schema 的引入

填写xml文档的根元素
引入xsi前缀
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
引入xsd文件命名空间
xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"
为每一个xsd约束声明一个前缀,作为标识
xmlns="http://www.itcast.cn/xml"

<students   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
				xmlns="http://www.itcast.cn/xml"
				xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd">

3 XML 解析

3.1 什么是解析 XML

3.1.1 操作 XML 文档

3.1.2 解析 XML 的方式

DOM

: 将标记语言文档一次性加载进内存，在内存中形成一颗DOM树。

优点：操作方便，可以对文档进行CRUD的所有操作
缺点：占内存

SAX

: 逐行读取，基于事件驱动的。

优点：不占内存
缺点：只能读取，不能增删改

注意

：DOM一般用于服务器端，SAX一般用于移动端

3.2 XML 常见的解析器

JAXP

: sun公司提供的解析器，支持dom和sax两种方式。

DOM4j

: DOM4j是一个开源的，基于Java的库来解析XML文档，它具有高度的灵活性，高性能和内存效率的API。

Jsoup

: Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

PULL

: Android操作系统内置的解析器，sax方式的。

3.3 Jsoup

3.3.1 快速入门

步骤

：

导入jar包 : jsoup-版本号.jar,JsoupXpath-版本号.jar
获取Document对象
获取对应的标签Element对象
获取数据

示例代码：

 public static void main(String[] args) throws IOException {
        //获取Document对象，根据xml文档获取
        //获取student.xml的path路径
        String path = JsoupDemo01.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载文档进内存，获取dom树   --->document
        Document document = Jsoup.parse(new File(path), "utf-8");
        //获取元素对象
        Elements elements = document.getElementsByTag("name");
        //获取第一个name的element对象
        Element element = elements.get(0);
        //获取文本内容
        String name = element.text();
        System.out.println(name);
 }

3.3.2 对象的使用

3.3.2.1 Jsoup

Jsoup: 工具类，可以解析html或xml文档，返回Document

parse() 用法

：

parse() 解析html或xml文档，返回Document

parse(File in, String charsetName)：解析xml或html文件的。
parse(String html)：解析xml或html字符串
parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象

示例代码：

public static void main(String[] args) throws IOException {
        //获取student.xml的path路径
        String path = JsoupDemo02.class.getClassLoader().getResource("student.xml").getPath();
        
    	//解析xml文档，加载文档进内存，获取dom树   --->document
       	/*Document document = Jsoup.parse(new File(path), "utf-8");
        System.out.println(document);*/
 
        //parse(String html):解析html字符串
        String str = "<?xml version=\"1.0\" encoding=\"UTF-8\" ?>\n" +
                " <students>\n" +
                " \t<student number=\"heima_0001\">\n" +
                " \t\t<name>tom</name>\n" +
                " \t\t<age>16</age>\n" +
                " \t\t<sex>male</sex>\n" +
                " \t</student>\n" +
                "\t<student number=\"heima_0002\">\n" +
                "\t\t<name>claier</name>\n" +
                "\t\t<age>18</age>\n" +
                "\t\t<sex>female</sex>\n" +
                "\t</student>\n" +
                "\t\t \n" +
                " </students>";
        /*Document document = Jsoup.parse(str);
        System.out.println(document);*/
 
        //parse(URL url,int timeoutMillis),通过网络路径获取指定的HTML的文档对象
        URL url = new URL("https://baike.baidu.com/item/jsoup/9012509?fr=aladdin");//代表网络中的一个资源网络
        Document document = Jsoup.parse(url, 10000);
    	System.out.println(document);
}

3.3.2.2 Document

Document：文档对象。代表内存中的dom树

获取Element对象

：

getElementById(String id)：根据id属性值获取唯一的element对象
getElementsByTag(String tagName)：根据标签名称获取元素对象集合
getElementsByAttribute(String key)：根据属性名称获取元素对象集合
getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

示例代码：

public static void main(String[] args) throws IOException { 
        //获取student.xml的path路径
        String path = JsoupDemo03.class.getClassLoader().getResource("student.xml").getPath();
    
        //获取document对象
        Document document = Jsoup.parse(new File(path), "utf-8");
 
        //获取元素对象 
        //1.获取所有的student对象
        Elements elements = document.getElementsByTag("student");
//        System.out.println(elements);
 
        //2.获取属性名为id的元素对象们
        Elements elements1 = document.getElementsByAttribute("id");
//        System.out.println(elements1);
 
        //3.获取number属相值为heima_0001的元素对象
        Elements elements2 = document.getElementsByAttributeValue("number", "heima_0001");
//        System.out.println(elements2);
 
        //4.获取id属性值的元素
        Element element = document.getElementById("1");
        System.out.println(element);
}

3.3.2.3 Element

Element: 元素对象

获取子元素对象

：
- getElementById(String id): 根据id属性值获取唯一的element对象
- getElementsByTag(String tagName): 根据标签名称获取元素对象集合
- getElementsByAttribute(String key): 根据属性名称获取元素对象集合
- getElementsByAttributeValue(String key, String value): 根据对应的属性名和属性值获取元素对象集合
获取属性值

：
- String attr(String key)：根据属性名称获取属性值
获取文本内容

：
- String text(): 获取文本内容
- String html(): 获取标签体的所有内容(包括字标签的字符串内容)

示例代码：

public static void main(String[] args) throws IOException { 
        //获取student.xml的path路径
        String path = JsoupDemo04.class.getClassLoader().getResource("student.xml").getPath();
                                                   
        //获取document对象
        Document document = Jsoup.parse(new File(path), "utf-8");
 
        //获取元素对象 
        //通过Document对象获取name标签，它是获取所有的name标签，本案例可以获取到两个
        Elements elements = document.getElementsByTag("name");
        System.out.println(elements.size());
 
        //通过Element对象或去子标签对象
        Element element_student = document.getElementsByTag("student").get(0);
        Elements ele_stu_name = element_student.getElementsByTag("name");
        System.out.println(ele_stu_name);
        System.out.println(ele_stu_name.size());
 
        //获取student对象的属性值
        String number = element_student.attr("number");
        System.out.println(number); 
        System.out.println("--------------");
 
        //获取文本内容 
        //获取所有子标签的纯文本内容
        String text = ele_stu_name.text();
    	System.out.println(text);
    
        //获取标签体的所有内容（包括子标签的标签和文本内容）
        String html = ele_stu_name.html();        
        System.out.println(html);
}

3.3.2.4 Elements

Elements: 元素Element对象的集合。

可以当作
ArrayList<Element>
来使用

3.3.2.5 Node

Node: Element 和 Document 的父类

3.4 快捷查询方式

3.4.1 Selector 选择器

使用方法

：
Elements select(String cssQuery)

语法

：参考

Selector

类中定义的语法

示例代码：

public static void main(String[] args) throws IOException { 
        //获取student.xml的path路径
        String path = JsoupDemo05.class.getClassLoader().getResource("student.xml").getPath();
    
        //获取document对象
        Document document = Jsoup.parse(new File(path), "utf-8");
 
        //获取元素对象
        //获取name标签
        Elements elements = document.select("name");
        System.out.println(elements); 
        System.out.println("-------------");
 
        //查询id为1的元素
        Elements elements1 = document.select("#1");
        System.out.println(elements1); 
        System.out.println("-------------");
 
        //获取student标签且number属性值为heima_0001的age子标签
        //获取student标签且number属性值为heima_0001
        Elements elements2 = document.select("student[number='heima_0001']");
        System.out.println(elements2);
        System.out.println("-------------");
    
        //获取student标签且number属性值为heima_0001的age子标签
        Elements elements3 = document.select("student[number='heima_0001'] age");
        System.out.println(elements3);
}

3.4.2 XPath 选择器

XPath 即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

注意

：

使用 Jsoup 的 Xpath 需要额外导入jar包
查询 W3Cshool 参考手册，使用 xpath 的语法完成查询

示例代码：

public static void main(String[] args) throws IOException, XpathSyntaxErrorException { 
        //获取student.xml的path路径
        String path = JsoupDemo06.class.getClassLoader().getResource("student.xml").getPath();
    
        //获取document对象
        Document document = Jsoup.parse(new File(path), "utf-8");
 
        //根据document对象创建JXDocument
        JXDocument jxDocument = new JXDocument(document);
    
        //结合xpath语法查询
        //查询所有的student标签
        List<JXNode> jxNodes = jxDocument.selN("//student");
        for (JXNode jxNode : jxNodes) {
            System.out.println(jxNode);
        } 
        System.out.println("----------");
 
        //查询所有student标签下的name标签
        List<JXNode> jxNodes1 = jxDocument.selN("//student/name");
        for (JXNode jxNode : jxNodes1) {
            System.out.println(jxNode);
        } 
        System.out.println("-----------");
 
        //查询student标签下带有id属性的name标签
        List<JXNode> jxNodes2 = jxDocument.selN("//student/name[@id]");
        for (JXNode jxNode : jxNodes2) {
            System.out.println(jxNode);
        } 
        System.out.println("-------------");
 
        //查询student标签下带有id属性的name标签并且id属性值为1
        List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id='1']");
        for (JXNode jxNode : jxNodes3) {
            System.out.println(jxNode);
        }
        System.out.println("-------------");
 
 }

原文链接：https://blog.csdn.net/ConorChan/article/details/132181389

XML 数据传输格式

1 XML 概述

1.1 什么是 XML

1.2 XML 与 HTML 的主要差异

1.3 XML 不是对 HTML 的替代

2 XML 语法

2.1 基本语法

2.2 快速入门

2.3 组成部分

2.3.1 文档声明

格式

属性

2.3.2 指令（了解）：结合CSS

2.3.3 元素

2.3.4 属性

XML 元素 vs. 属性

2.3.5 文本

CDATA 区段（CDATA section）

2.4 XML 约束

2.4.1 XML DTD （简单）

DTD 的引入

2.4.2 XML Schema （复杂）

Schema 的引入

3 XML 解析

3.1 什么是 解析 XML

3.1.1 操作 XML 文档

3.1.2 解析 XML 的方式

3.2 XML 常见的解析器

3.3 Jsoup

3.3.1 快速入门

3.3.2 对象的使用

3.3.2.1 Jsoup

3.3.2.2 Document

3.3.2.3 Element

3.3.2.4 Elements

3.3.2.5 Node

3.4 快捷查询方式

3.4.1 Selector 选择器

3.4.2 XPath 选择器

你可能也喜欢

3.1 什么是解析 XML