当 XML
文档的标记结构和内容得到外部模式文件的验证后,XML 文档就是正确的。模式文件可以用不同的格式指定。对于本文来说,所需要的只是格式良好的
XML。
如果觉得 XML 看起来很像超文本标记语言(HTML),那么就对了。XML 和 HTML
都是基于标记的语言,它们有许多相似之处。但是,要着重指出的是:虽然 XML 文档可能是格式良好的 HTML,但不是所有的 HTML 文档都是格式良好的
XML。换行标记(br)是 XML 和 HTML 之间区别的一个好例子。这个换行标记是格式良好的 HTML,但不是格式良好的
XML:
<p>This is a paragraph<br> With a line break</p>
这个换行标记是格式良好的 XML 和 HTML:
<p>This is a paragraph<br /> With a
line break</p>
如果要把 HTML 编写成同样是格式良好的 XML,请遵循 W3C
委员会的可扩展超文本标记语言(XHTML)标准(参见 参考资料)。所有现代的浏览器都能呈现 XHTML。而且,还可以用 XML 工具读取 XHTML
并找出文档中的数据,这比解析 HTML 容易得多。
使用 DOM 库读取 XML
读取格式良好的 XML
文件最容易的方式是使用编译成某些 PHP 安装的文档对象模型 (DOM)库。DOM 库把整个 XML 文档读入内存,并用节点树表示它,如图 1
所示。
图 1. 图书 XML 的 XML DOM 树
树顶部的 books 节点有两个 book 子标记。在每本书中,有 author、publisher 和 title
几个节点。author、publisher 和 title 节点分别有包含文本的文本子节点。