字符编码笔记:ASCII,Unicode 和 UTF-8
尚硅谷宋红康计算机字符编码.pdf
写在前面
在Unicode出现之前,每个字符集对应唯一的编码方式,但是Unicode出现后,字符集与编码方式不再是一一对应。
Unicode字符集对应的编码方式常用的有UTF-8, UTF-16LE, UTF-16BE,
ASCII
在计算机内部, 所有数据都使用二进制表示。 每一个二进制位(bit) 有 0 和 1 两种状态,因此 8 个二进制位就可以组合出 256 种状态, 这被称为一个字节(byte)。 一个字节一共可以用来表示 256 种不同的状态, 每一个状态对应一个符号, 就是 256 个符号, 从0000 0000 到 1111 1111。
ASCII码: 上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统一规定。 这被称为ASCII码。 ASCII码一共规定了128个字符的编码, 比如空格“SPACE”是32(二进制00100000), 大写的字母A是65(二进制01000001)。 这128个符号(包括32个不能打印出来的控制符号), 只占用了一个字节的后面7位, 最前面的1位统一规定为0。
非ASCII
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
Unicode
参考文档
具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。
目前的Unicode字符分为17组编排,每组称为平面(Plane),而每平面拥有65536(即2)个代码点。然而目前只用了少数平面。
🎃目前主要使用基本多文种平面(级别)!
乱码:世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
Unicode 规范定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格”(zero width no-break space),用FEFF
表示。这正好是两个字节,而且FF
比FE
大1
。
如果一个文本文件的头两个字节是FE FF
,就表示该文件采用大头方式;如果头两个字节是FF FE
,就表示该文件采用小头方式。
Unicode: 一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,使用 Unicode 没有乱码的问题。Unicode 的缺点:
Unicode 只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储:无法区别 Unicode 和 ASCII:计算机无法区分三个字节表示一个符号还是分别表示三个符号。
另外, 我们知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储空间来说是极大的浪费。
UTF8
UTF-8 是在互联网上使用最广的一种 Unicode 的实现方式。UTF-8 是一种变长的编码方式。它可以使用 1-6 个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则:
对于单字节的UTF-8编码,该字节的最高位为0,其余7位用来对字符进行编码(等同于ASCII码)。对于多字节的UTF-8编码,如果编码包含 n 个字节,那么第一个字节的前 n 位为1,第一个字节的第 n+1 位为0,该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节,都是最高两位为”10”,其余6位用来对字符进行编码。
UTF-8使用一至四个字节为每个字符编码:
128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
其他极少使用的Unicode辅助平面的字符使用四字节编码。
实例
下面,举一个实例。
打开”记事本”程序notepad.exe
,新建一个文本文件,内容就是一个严
字,依次采用ANSI
,Unicode
,Unicode big endian
和UTF-8
编码方式保存。
然后,用文本编辑软件UltraEdit 中的”十六进制功能”,观察该文件的内部编码方式。
1)ANSI:文件的编码就是两个字节D1 CF
,这正是严
的 GB2312 编码。
2)Unicode little endian:编码是四个字节FF FE 25 4E
,其中FF FE
表明是小端方式存储,真正的编码是4E25
。
3)Unicode big endian:编码是四个字节FE FF 4E 25
,其中FE FF
表明是大端方式存储。
4)UTF-8 with BOM:编码是六个字节EF BB BF E4 B8 A5
,前三个字节EF BB BF
表示这是UTF-8编码,后三个E4B8A5
就是严
的具体编码,它的存储顺序与编码顺序是一致的。
UTF-8与UTF-8 without BOM
何谓BOM? “ EF BB BF“ 这三个字节就叫BOM,BOM的全称叫做” Byte Order Mark“.
在UTF-8文件中常用BOM来表明这个文件是UTF-8文件, 而BOM的本意是在UTF-16中用来表示高低字节序列的。
在字节流之前有BOM值为 FF FE
表示采用小端字节序(低字节在前面), FE FF
表示采用大端字节序(高字节在前)
而UTF-8不用考虑字节序列,所以其实有无BOM都可以。
UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”,那么这是 “奎”还是“乙”?
在保存UTF-8编码的文件时,不要使用BOM。如果使用了,仅表示这是一个使用UTF-8编码方式的文件而已。
UTF16
一个WORD表示BMP平面的字符,两个WORD表示辅助平面的字符,分两部分,合起来表示辅助字符
两部分的顺序决定是大端字节序还是小端字节序。
BMP中有一段专门用于UTF16编码 D800 - DFFF
U+D800 - U+DBFF
即 1101 1000 0000 0000 - 1101 1011 1111 1111
表示辅助字符的第一部分U+DC00 - U+DFFF
即 1101 1100 0000 0000 - 1101 1111 1111 1111
表示辅助字符的第二部分
把非BMP平面的字符记作 U
,则 0x10000 <= U <= 0x10FFFF
令 U' = U - 0x10000
, 则 0x00000 <= U' <= 0xFFFFF
, 范围正好是20bit,将前10bit放在第一部分,后10bit放在第二部分。于是就得到了辅助平面字符的UTF16编码表示。
逆过程用于解析一个辅助字符。