XML 的规格书中将「实体」这个词汇做了广泛的应用,一般的意思是指与XML 文件相关联的任何下列型式的储存单元。
有效的XML 文件本身
外部的DTD 子集(已于第五章的 <使用外部DTD 子集> 中做过讨论)
定义成DTD 中外部实体的外部档案,以及实体参照的运用
在DTD 中定义内部实体的引号包围字符串,以及实体参照的运用
笔者将扼要地定义最后两项。注意列表中的前三类储存单元都是档案,而最后一项则是引号包围的字符串。
然而,本章将实体用在较狭义的领域:参考最后两项的储存单元-那就是,在文件中的DTD 中定义成外部档案或引号包围字符串,并在文件中以实体参照的方式运作。例如,下面的DTD 将外部档案Topics.xml(一个拥有包含在文件中全部文章所涵盖的标题列表的档案)定义成名为topics 的外部实体,并且将引号包围字符串(「A Short History of XML」)定义成名为title 的内部实体:
<!DOCTYPE ARTICLE
[
<!ELEMENT ARTICLE (TITLEPAGE,INTRODUCTION,SECTION*)>
<!ELEMENT TITLEPAGE (#PCDATA)>
<!ELEMENT INTRODUCTION (#PCDATA)>
<!ELEMENT SECTION (#PCDATA)>
<!ENTITY topics SYSTEM "Topics.xml">
<!ENTITY title "A Short History of XML">
]
>
你可以借着简单地含括实体参照&topics,来将标题的完整列表放在文章中你需要的任何地方(例如,在摘要、序文或结论)。如下列的元素所示:
<INTRODUCTION>
This article will cover the following topics:
&topics;
</INTRODUCTION>
接下来你就可以含括实体参照&title 来将文章放在需要的地方;如元素所示:
<TITLEPAGE>
Title:&title;
Author:Michael Young
</TITLEPAGE>
实体的机制对于储存常用的XML 文字区段特别有用。例如,如果文章标题遍布在文章里多个位置,使用实体(如之前范例中所示)能减少输入,帮助确保一致性,并且让修改标题变得更容易。你也可以借着简单地在DTD 中编辑实体宣告来修改整个标题,大概如下所示:
<!ENTITY title "A Long History of XML"><!--modified entity
declaration -->
如果你恰巧是个程序设计人员,你将发现XML 实体机制与程序语言中定义的常数之间的相似性(如C 里面那些使用#define 处理器指令进行宣告的常数或函式)。如同你稍后将见到的,实体机制也是将非XML 的数据含括到XML 文件中不可或缺的要项,例如影像的图形数据。
对一个一般内部已解析实体的宣告可以利用下列的格式:
<!ENTITY EntityName EntityValue>
这里的EntityName 是实体的名称。你可以选择遵循下列这些规则而来的任何名称:
名称必须以字母或底线(_)开始,后面接着零或多个字母、数字、句号(.)、连字号(-),或底线(_)。
实体可以拥有与位在文件中的参数实体相同的名称(一般实体与参数实体使用不同的命名空间(namespaces))。实体也可以拥有与元素或属性相同的名称。
记住,字母的大小写在所有的卷标,包括实体名称中的所有文字中,是不同的。因此,一个名为Bowser 的实体与名为bowser 的实体是不同的。
实体值(EntityValue)就是实体的数值。你指定给一般内部实体的数值是一连串包含在引号内的连续字符,称之为引号包围字符串或literal。你可以为一般内部实体指定任何的值,只要遵循下列的规则即可:
字符串可以包含在单引号(')或双引号(")内。
字符串中不能包含用来包围字符串的引号字符。
字符串中不能包含(&)字符,除了用来作字符引号或实体参照的起始。同样地,字符串中也不能包含百分比字符(%)。(有关例外的状况,请参阅 http://www.w3.org/TR/REC-xml 的XML 规格书中的第四部分。)
当然,字符串的内容对于你想放置实体的位置必须是正确的。例如,如果你想将实体放置在元素之中,它必须包含一个或多个可以被合法地放置在元素(套迭元素、字符数据,以及其它在第三章 <元素内容的类型> 所介绍的数据等等)中的项目。或者,如果你在属性值内插入一个实体,它必须包含合法属性规格的字符(如同第三章 <合法属性值的规则> 中所介绍的)。本章稍后将介绍你可以放置
一般内部已解析实体的位置。
例如,下面的DTD 定义了一个名为title 的一般内部已解析实体:
<!DOCTYPE ARTICLE
[
<!ELEMENT ARTICLE (TITLEPAGE,INTRODUCTION,SECTION*)>
<!ELEMENT TITLEPAGE (#PCDATA|SUBTITLE)*>
<!ELEMENT SUBTITLE (#PCDATA)>
<!ELEMENT INTRODUCTION (#PCDATA)>
<!ELEMENT SECTION (#PCDATA)>
<!ENTITY title
"The Story of XML
<SUBTITLE>The Future Language of the
Internet</SUBTITLE>">
]
>
title 实体包含了字符数据加上一个元素(SUBTITLE)。根据位于DTD 中的宣告部分,该内容只能正确地放置在TITLEPAGE 元素中,如下所示:
<TITLEPAGE>
Title:&title;
Author:Michael Young
</TITLEPAGE>
XML 解析器将把实体参照(&title;)的部分替换成实体的内容,并且将这些内容如同你将文字输入到文件中相同位置的方式来进行处理,就像这样:
<TITLEPAGE>
Title:The Story of XML
<SUBTITLE>The Future Language of the Internet</SUBTITLE>
Author:Michael Young
</TITLEPAGE>
宣告一般外部已解析实体
一般外部已解析实体的宣告拥有下列的格式:
<!ENTITY EntityName SYSTEM SystemLiteral>
这里的EntityName 是属性的名称。只要你遵守一般外部已解析实体的命名规则,你可以选择任何的名称。
SystemLiteral 则是负责描述包含实体数据文件其地址的系统literal。这些系统literal 可以使用单引号(')或双引号(")来包围,并且可以包含任何的字符,除了被用来作包围字符的引号字符以外。
系统literal 指定了包含实体数据文件的统一资源识别代号(URI)。目前,URI 在本质上与标准的网络地址相同,一般称为统一资源寻址器,或URL。你可以使用完全符合规定的URL,如:
<!ENTITY abstract SYSTEM "http://bogus.com/documents/Abstract.xml">
或者你可以使用部分的URI,该URI 指定了相对于包含该URI 的XML 文件位置的相对位置,例如:
<!ENTITY abstract SYSTEM "Abstract.xml">
在XML 文件中相对的URI 都是利用与位在HTML 网页中相对URL 运作的相同方式来运作。想获得更多URI 的相关信息,请参阅第五章 <使用外部的DTD 子集> 中的介绍。
外部实体的档案可以只包含那些能够合法地被安插在元素(如第三章的 <元素内容的类型> 中所介绍的字符数据、套迭元素等等)之中的项目。如同你在本章稍后将学到的,最终你只能将一般内部已解析实体放置在元素的内容之中。(你可以将实体含括在内部实体宣告的数值内,但是你接着必须将该内容安插到元素内。)例如,下面的DTD 将外部档案Topics.xml 定义成一般外部已解析实体:
<!DOCTYPE ARTICLE
[
<!ELEMENT ARTICLE (TITLEPAGE,INTRODUCTION,SECTION*)>
<!ELEMENT TITLEPAGE (#PCDATA)>
<!ELEMENT INTRODUCTION ANY>
<!ELEMENT SECTION (#PCDATA)>
<!ENTITY topics SYSTEM "Topics.xml">
]
>
下面是Topics.xml 档案的内容:
<HEADING>Topics</HEADING>
The Need for XML
The Official Goals of XML
Standard XML Applications
Real-World Uses for XML
这个特殊的外部实体档案包含了两个你可以含括在XML 元素中的项目:套迭元素与字符数据区块。实体的内容可以正确地被安插在INTRODUCTION 元素中(该元素可以拥有任何型态的内容),如这个范例所示:
<INTRODUCTION>
Here 's what this article covers:
&topics;
</INTRODUCTION>