XML课程——XML解析器

2012-12-23

XML教程——XML解析器Parser基础一个 XML Parser(解析器)是一段可以读入一个文档并分析其结构的代码。在本章

XML教程——XML解析器

Parser基础

一个 XML Parser(解析器)是一段可以读入一个文档并分析其结构的代码。

在本章节，我们将讨论如何使用一个 XML 解析器来读入一个 XML 文档。我们也将讨论不同类型的解析器以及您在何时使用它们。

回页首

如何使用一个解析器

通常而言，使用一个解析器需要如下步骤：

创建一个解析器对象将您的 XML 文档传递给解析器处理结果

构建一个 XML 应用显然远远超出这些，但通常一个 XML 的应用将包含这些流程。

回页首

解析器种类

有不同的方法来划分解析器种类：

验证或非验证解析器支持 Document Object Model (DOM) 的解析器支持 Simple API for XML (SAX) 的解析器特定语言编写的解析器 (Java, C++, Perl 等)

接下来我们将讨论这几种解析器的各自特点.

回页首

验证或非验证解析器

如我们在前面所提及的，XML 文档如果使用一个 DTD 并符合 DTD 中的规则将被称为有效文档(valid document)。符合基本标记规则的 XML 文档被称为格式正确文档(well-formed document)。

XML 规范要求所有的解析器当其发现一个文档不是格式正确时要报错。

验证(Validation)则是另一个问题了。验证解析器(Validating parser)在解析 XML 文档同时进行验证。非验证解析器(Non-validating parser) 忽略所有的验证错误。

换而言之，如果一个 XML 文档是格式正确的时，一个非验证解析器并不关注文档是否符合其对应 DTD 所指定的规则(如果有的话)。

回页首

为何使用非验证解析器？

速度和效率。要一个 XML 解析器处理 DTD 并确保每个 XML 的元素符合在 DTD 中的规则需要相当大的开销。如果您确定一个 XML 文档是有效的(可能来自一个数据源)，那就没有必要再次验证它了。

同样，有时您所需要的只是从一个文档中找出 XML 的标记。一旦您有了这些标记，您可以将数据从中提取出然后加以处理。如果这就是您所需要的，一个非验证解析器就是正确的选择。

回页首

Document Object Model (DOM)

文档对象模型(Document Object Model)是 World Wide Web Consortium(W3C) 的正式推荐。它定义了一个接口使得程序可以存取和更新 XML 文档的风格、结构和内容。支持 DOM 的 XML 解析器实现该接口。

该规范的第一版，DOM Level 1，可从 http://www.w3.org/TR/REC-DOM-Level-1 获得。

当您用一个 DOM 解析器来解析一个 XML 文档时，您将获得一个包含文档中所有元素的树结构。DOM 提供了不同的功能来检查文档的内容和结构。

回页首

Simple API for XML (SAX)

SAX API 是另一种处理 XML 文档内容的方法。一个既成事实的标准，它由 David Megginson 和 XML-Dev 邮件列表其它成员所开发。

要查看完整的 SAX 标准，参见 www.megginson.com/SAX/。要参加 XML-Dev 邮件列表，发送邮件到 majordomo@ic.ac.uk 其中包含： subscribe xml-dev。

当您使用 SAX 解析器来解析 XML 文档时，解析器在文档的不同处将产生事件。由您来决定对每个事件如何处理。

SAX 解析器会在以下情况下产生事件：在文档开始和结束时，在一个元素开始和结束时，或者它在一个元素中找到字符时，以及其它若干点。您可编写 Java 代码来处理每个事件，以及如何处理从解析器获得的信息。

回页首

何时使用 SAX？何时使用 DOM？

为了确定哪种接口适合您，您需要理解所有接口的设计要点，而且需要理解应用程序用您将要处理的 XML 文档来做什么。考虑下面的问题将有助于您找到正确的方法。

要知道还存在用于其它语言的 XML API；尤其是 Perl 和 Python 社区有极佳的 XML 工具。

参考资料

Java

IBM 的解析器，XML4J，可从 www.alphaWorks.ibm.com/tech/xml4j 获得。
James Clark 的解析器，XP，可从 www.jclark.com/xml/xp 获得。
Sun 的 XML 解析器可从 developer.java.sun.com/products/xml/ (您必需成为 Java Developer Connection 的会员)下载。
DataChannel 的 XJParser 可从 xdev.datachannel.com/downloads/xjparser/ 获得。

C++

IBM 的 XML4C 解析器可从 www.alphaWorks.ibm.com/tech/xml4c 获得。
James Clark 的 C++ 解析器，expat，可从 www.jclark.com/xml/expat.html 获得。

Perl

有多种 Perl 语言的 XML 解析器。要获得更多信息，参见 www.perlxml.com/faq/perl-xml-faq.html。

Python

要获得更多 Python 语言的 XML 解析器，参见 www.python.org/topics/xml/。

热点排行

XML SOAP

XML课程——XML解析器