XML入门教程：分析XM

网页制作 2024/12/28 佚名

3 1 2

分析XML文档可通过程序来做，分析器有两大类，一种是事件驱动的，一种是基于树模型的。
分析XML文档可通过程序来做，分析器有两大类，一种是事件驱动的，一种是基于树模型的。

1.分析器工具
现有的分析器种类有上百种，但常用的是两个标准的工具库，一个是XML简单API(SAX，Simple API for XML)和文档对象模型(DOC，Document Object Model)。SAX是事件驱动分析器的标准，而DOM是基于树的分析器标准。另外，Expat虽然不是标准，但它是脚本语言中处理XML时最常用的分析器。Expat由James Clark编写，是事件驱动分析器。
本文由（https://www.jb51.net）整理发布！转载请注明出处，谢谢！

2.Unicode
计算机并不能正真理解文本内容，它无法识别诸如a,b,c这类的字母，更不用说中文了。计算机所能理解的只有数字，如60，80等。字符集(character set)规定了字母到数字的映射关系，如65代表大写字母A。65称为码点(code point)，字符编码(character encoding)决定码点如何用字节表示。是用多了节还是单字节，高字节位表示什么，低字节位表示什么。
不同国家使用不同的语言，不同程序使用不同的编码规范，在进行世界范围内的数据交换就要统一表示数据的字符编码规范。传统的ASCII字符集只定义了127个字符，其中前31个是控制符。127位之后的字符随平台不同而不同。大多数平台只能表示前127位，单字节(8位)，使得字符集中最多只能提供256个字符。这些标准字符称为罗马或拉丁字符集，用ASCII来表示中文、日文是远远不够的。
为了解决字符集问题，出现了Unicode字符集。它可用多字节格式编码字符，目前标准允许2字节字符，支持65536个不同字符。标准的Unicode字符集为Latin-1(或ISO-8859-1)。有关Unicode的介绍可访问Unicode的官方网站：http://www.unicode.org
Unicode字符集为字符分配码点，即编号。这些编号可以用多种模式编码，如UCS-2、UCS-4、UTF-8、UTF-16。

UCS-2，也叫ISO-10646-UCS-2。每个字符用一个0~65535之间的两个字节的无符号整数表示。如A的Unicode码点为65，用两个字节00和41(十六进制)表示。B的Unicode码点为66，用两个字节00和42表示。UCS-2有两种形式：高字节(#x0041)在前和低字节(#x4100)在前。为区发高低位不同表示形式，采用UCS-2编码文档通常以Unicode字符#xFEFF(零宽度无间断空格)开头，一般称为字节顺序标记(byte order mark)。这个字符是不可见的。如果两个字节交换位置，得到的字符#xFFFE实际是不存在的。因此中通过查看UCS-2文档的前两个字符是#xFEFF还是#xFFFE，就可确定该文档是否是高字节在前。UCS-2的缺点：如果文本字符主要是拉丁文，由于采用两个字节，字符集编码是单字节字符编码的两倍；UCS-2不能与ASCII向前或向后兼容，用于单字节字符集的工具常常不适用于处理UCS-2编码文件。
UTF-8是一种可这长度的Unicode编码。0~127为ASCII码字符集，与ASCII编码完全兼容，每个字符采用一个字节编码。UTF-8用两个字节表示128~2047，该范围覆盖了最常见的非表意字母。其余的字符，主要来自汉语、日语和韩语，每个都用3个字节表示。如果Unicode的码点超过65535个字符，那么这些字符就会用4个字节编码。对于以拉丁文为主的文件，使用UTF-8比UCS-2可减少一半的文件大小。对于汉语、日语和韩语的文件，其大小会增加百分之五十。对于其它语言，文件大小相差不大。UTF-8是最常用的Unicode编码方式。
在Unicode流行以前，出现了一系列处理特定语言的单字节字符集，ISO将14种这样的字符集标准化成ISO 8859标准，分别是ISO-8859-1~14。ISO-8859-15是ISO-8859-1的修订版本。这些字符集统称ISO字符集。
Cp1252是依赖于Windows平台的一种编码，是Windows的缺省字符集。该种编码不支持跨平台特性，尽量不要使用。
MacRoman是Mac OS使用的一种非标准、单字节编码。在非Mac平台下使用也会有问题，尽量不要使用。
本文由（https://www.jb51.net）整理发布！转载请注明出处，谢谢！
在XML文档中，如果需输入编辑器不支持的字符，我们可用字符引用的方式，以十进制或十六进制给出它所代表的Unicode字符编号，如њ(十进制)或者&#x45A(十六进制)。字符引用可用于元素内容、属性和注释，不能用于元素名和属性名、处理指令或XML关键字。如果有一些字符需经常使用，则我们可为这些字符定义实体，这样，在文档中就可方便地引用该实体了。专门定义字符实体的DTD我们可独立出来，形成以.ent为后缀的外部DTD。在需要时使用外部参数实体引用将这些定义引入文档的DTD中。
XHTML 1.0 DTD包含有三个有用的字符引用实体可在文档中使用。

Latin-1字符，http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent
ISO-8859-1中自160以上的非ASCII码字符。
特殊字符，http://www.w3.org/TR/xhtml/DTD/xhtml-special.ent
ISO-8859-2中不在Latin-1中的字母。
标点符号，http://www.w3.org/TR/xhtml-symbol.ent
希腊字母表(不包含带重音的字符)和各种标点符号、数学运算符及其他数学中常用的符号。
在XML文档中可以使用xml:lang属性规定元素内容采用的语言。这样就可在一篇文档中同时使用多种语言，这是XML跨平台和跨语言的重要特性之一。如：xml:lang="CN-CHN"。语言代码是一个两个字母的语言代码，语言代码后还可跟一个子代码，语言代码可在这里找到http://ftp.ics.uci.edu/pub/ietf/http/related/iso3166.txt。下面是xml:lang属性声明的示例：
<!ELEMENT test (#PCDATA)> <!ATTLIST test xml:lang NMTOKEN #IMPLIED>

由于所有语言代码都是有效的XML名称标记，所以使用NMTOKEN类型。

教程,入门,字符,文档,字节,XML,分析,使用,编码,字符集

风云阁资源网 Design By www.bgabc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

风云阁资源网 Design By www.bgabc.com

评论“XML入门教程：分析XM”

暂无评论...

www.bgabc.com 风云阁资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2024/12/28

43

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

32

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

61

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2024/12/28

24

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2024/12/28

74

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/12/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2024年12月28日

2024年12月28日