小知识 - 字符集与编码方式 - 《学习笔记》

写在前面
ASCII
非ASCII
Unicode
UTF8
实例
UTF-8与UTF-8 without BOM
UTF16

字符编码笔记：ASCII，Unicode 和 UTF-8
尚硅谷宋红康计算机字符编码.pdf

写在前面

在Unicode出现之前，每个字符集对应唯一的编码方式，但是Unicode出现后，字符集与编码方式不再是一一对应。
Unicode字符集对应的编码方式常用的有UTF-8, UTF-16LE, UTF-16BE,

ASCII

在计算机内部，所有数据都使用二进制表示。每一个二进制位（bit）有 0 和 1 两种状态，因此 8 个二进制位就可以组合出 256 种状态，这被称为一个字节（byte）。一个字节一共可以用来表示 256 种不同的状态，每一个状态对应一个符号，就是 256 个符号，从0000 0000 到 1111 1111。

ASCII码：上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码。 ASCII码一共规定了128个字符的编码，比如空格“SPACE”是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位， 最前面的1位统一规定为0。

非ASCII

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。
但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用256个符号的编码方式，代表的字母却不一样。比如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0—127表示的符号是一样的，不一样的只是128—255的这一段。

Unicode

参考文档
具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。

目前的Unicode字符分为17组编排，每组称为平面（Plane），而每平面拥有65536（即2）个代码点。然而目前只用了少数平面。
🎃目前主要使用基本多文种平面(级别)！
乱码：世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。

Unicode 规范定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格”（zero width no-break space），用FEFF表示。这正好是两个字节，而且FF比FE大1。
如果一个文本文件的头两个字节是FE FF，就表示该文件采用大头方式；如果头两个字节是FF FE，就表示该文件采用小头方式。

Unicode：一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，使用 Unicode 没有乱码的问题。Unicode 的缺点：
Unicode 只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储：无法区别 Unicode 和 ASCII：计算机无法区分三个字节表示一个符号还是分别表示三个符号。
另外，我们知道，英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储空间来说是极大的浪费。

UTF8

UTF-8 是在互联网上使用最广的一种 Unicode 的实现方式。UTF-8 是一种变长的编码方式。它可以使用 1-6 个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8的编码规则：
对于单字节的UTF-8编码，该字节的最高位为0，其余7位用来对字符进行编码（等同于ASCII码）。对于多字节的UTF-8编码，如果编码包含 n 个字节，那么第一个字节的前 n 位为1，第一个字节的第 n+1 位为0，该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节，都是最高两位为”10”，其余6位用来对字符进行编码。

UTF-8使用一至四个字节为每个字符编码：
128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。
带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码（Unicode范围由U+0080至U+07FF）。
其他基本多文种平面（BMP）中的字符（这包含了大部分常用字）使用三个字节编码。
其他极少使用的Unicode辅助平面的字符使用四字节编码。

实例

下面，举一个实例。
打开”记事本”程序notepad.exe，新建一个文本文件，内容就是一个严字，依次采用ANSI，Unicode，Unicode big endian和UTF-8编码方式保存。
然后，用文本编辑软件UltraEdit 中的”十六进制功能”，观察该文件的内部编码方式。
1）ANSI：文件的编码就是两个字节D1 CF，这正是严的 GB2312 编码。
2）Unicode little endian：编码是四个字节FF FE 25 4E，其中FF FE表明是小端方式存储，真正的编码是4E25。
3）Unicode big endian：编码是四个字节FE FF 4E 25，其中FE FF表明是大端方式存储。
4）UTF-8 with BOM：编码是六个字节EF BB BF E4 B8 A5，前三个字节EF BB BF表示这是UTF-8编码，后三个E4B8A5就是严的具体编码，它的存储顺序与编码顺序是一致的。

UTF-8与UTF-8 without BOM

何谓BOM？ “ EF BB BF“ 这三个字节就叫BOM，BOM的全称叫做” Byte Order Mark“.
在UTF-8文件中常用BOM来表明这个文件是UTF-8文件, 而BOM的本意是在UTF-16中用来表示高低字节序列的。
在字节流之前有BOM值为 FF FE 表示采用小端字节序（低字节在前面）, FE FF 表示采用大端字节序（高字节在前）
而UTF-8不用考虑字节序列，所以其实有无BOM都可以。
UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是 “奎”还是“乙”？
在保存UTF-8编码的文件时，不要使用BOM。如果使用了，仅表示这是一个使用UTF-8编码方式的文件而已。

UTF16

一个WORD表示BMP平面的字符，两个WORD表示辅助平面的字符，分两部分，合起来表示辅助字符

两部分的顺序决定是大端字节序还是小端字节序。

BMP中有一段专门用于UTF16编码 D800 - DFFF
U+D800 - U+DBFF 即 1101 1000 0000 0000 - 1101 1011 1111 1111 表示辅助字符的第一部分
U+DC00 - U+DFFF 即 1101 1100 0000 0000 - 1101 1111 1111 1111 表示辅助字符的第二部分

把非BMP平面的字符记作 U ，则 0x10000 <= U <= 0x10FFFF
令 U' = U - 0x10000 , 则 0x00000 <= U' <= 0xFFFFF, 范围正好是20bit，将前10bit放在第一部分，后10bit放在第二部分。于是就得到了辅助平面字符的UTF16编码表示。
逆过程用于解析一个辅助字符。