首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > Web前端 >

Unicode跟UTF系列(1)

2012-08-27 
Unicode和UTF系列(1)Unicode和UTF系列UnicodeUnicode 字符集收录了这世界上所有的文字符号和特殊符号。对于

Unicode和UTF系列(1)
Unicode和UTF系列

Unicode
        Unicode 字符集收录了这世界上所有的文字符号和特殊符号。对于每一个符号都定义了一个值,称为代码点(code point)。代码点可以用2个字节表示(UCS-2),也可以用4个字节(UCS-4编码)。

UTF系列
为什么出现UTF编码?
        UCS编码虽然定义了每个代码点的编码方式,但是没规定如何传输和存储。比如,在UCS-2码中,英文符号是在ACSII码的前面加上一个0 byte,像"A"的ASCII码 0x41,在UCS码中就是0x0041,这样,对于英文系统来讲会出现大量的0 byte,造成不必要的浪费。而且容易存在对现在ASCII码不兼容的问题。所以这个重担就落在了UTF编码身上,全称是Unicode Transformation Format。
什么是Endian?
        我们知道"中"字的UFT-16编码是0x4E,0x2D,但是传输存储的过程中,字节的顺序有可能是(0x4E,0x2D),也可能是(0x2D,0x4E),这就是涉及一个字节序的问题。对于前一种,我们称为Big Endian(大尾,也就是高位在前),而后一总称为Little Endian(小尾,低位在前)。
        那我们如何知道在不清楚哪一"尾"的情况下进行解析?
先人已有解决的办法,就是在最前面加多2个字节,OxFEFF表示BE,而0xFFFE表示LE。(注:OxFEFF是实际上不存在的字符,所以正常情况下是不会使用到的,所以,不用担心出现与正常的字符数据冲突的问题),这就是所谓的BOM(Bill Of Material)。
        UTF系列都存在LE,BE,BOM,无BOM几种版本。
        比如"中国"的各个版本UTF-16字符编码如下:
编码        字节序列
UTF-16BE        4E,2D,56,FD
UTF-16LE        2D,4E,fD,56
UTF-16(BOM,BE)        FE,FF,4E,2D,56,FD
UTF-16(BOM,LE)        FF,FE,2D,4E,fD,56

热点排行