1. 字符编码

字符编码（Character encoding）是把字符集中的字符编码为指定集合中某一对象（例如：比特模式），以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中，ASCII将字母、数字和其它符号编号，并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特，以便于以1个字节的方式存储。

2. ASCII

我们知道，计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有 0 和 1 两种状态，因此八个二进制位就可以组合出 256 种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示 256 种不同的状态，每一个状态对应一个符号，就是 256 个符号，从 00000000 到 11111111。

上个世纪 60 年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。

ASCII 码一共规定了 128 个字符的编码，比如空格 SPACE 是 32（二进制 00100000 ），大写的字母 A 是 65（二进制 01000001）。这 128 个符号（包括 33 个不能打印出来的控制符号），只占用了一个字节的后面 7 位，最前面的一位统一规定为 0。

2.1. 控制字符

二进制	十进制	十六进制	缩写	名称／意义
0000 0000	0	0	NUL	空字符（Null）
0000 0001	1	1	SOH	标题开始
0000 0010	2	2	STX	本文开始
0000 0011	3	3	ETX	本文结束
0000 0100	4	4	EOT	传输结束
0000 0101	5	5	ENQ	请求
0000 0110	6	6	ACK	确认回应
0000 0111	7	7	BEL	响铃
0000 1000	8	8	BS	退格
0000 1001	9	9	HT	水平定位符号
0000 1010	10	0A	LF	换行键
0000 1011	11	0B	VT	垂直定位符号
0000 1100	12	0C	FF	换页键
0000 1101	13	0D	CR	CR (字符)
0000 1110	14	0E	SO	取消变换（Shift out）
0000 1111	15	0F	SI	启用变换（Shift in）
0001 0000	16	10	DLE	跳出数据通讯
0001 0001	17	11	DC1	设备控制一（XON 激活软件速度控制）
0001 0010	18	12	DC2	设备控制二
0001 0011	19	13	DC3	设备控制三（XOFF 停用软件速度控制）
0001 0100	20	14	DC4	设备控制四
0001 0101	21	15	NAK	确认失败回应
0001 0110	22	16	SYN	同步用暂停
0001 0111	23	17	ETB	区块传输结束
0001 1000	24	18	CAN	取消
0001 1001	25	19	EM	连线介质中断
0001 1010	26	1A	SUB	替换
0001 1011	27	1B	ESC	退出键
0001 1100	28	1C	FS	文件分割符
0001 1101	29	1D	GS	组群分隔符
0001 1110	30	1E	RS	记录分隔符
0001 1111	31	1F	US	单元分隔符
0111 1111	127	7F	DEL	Delete字符

2.2. 可显示字符

二进制	十进制	十六进制	图形
0010 0000	32	20	(space)
0010 0001	33	21	!
0010 0010	34	22	“
0010 0011	35	23	#
0010 0100	36	24	$
0010 0101	37	25	%
0010 0110	38	26	&
0010 0111	39	27	‘
0010 1000	40	28	(
0010 1001	41	29	)
0010 1010	42	2A	*
0010 1011	43	2B	+
0010 1100	44	2C	,
0010 1101	45	2D	-
0010 1110	46	2E	.
0010 1111	47	2F	/
0011 0000	48	30	0
0011 0001	49	31	1
0011 0010	50	32	2
0011 0011	51	33	3
0011 0100	52	34	4
0011 0101	53	35	5
0011 0110	54	36	6
0011 0111	55	37	7
0011 1000	56	38	8
0011 1001	57	39	9
0011 1010	58	3A	:
0011 1011	59	3B	;
0011 1100	60	3C	<
0011 1101	61	3D	=
0011 1110	62	3E	>
0011 1111	63	3F	?
0100 0000	64	40	@
0100 0001	65	41	A
0100 0010	66	42	B
0100 0011	67	43	C
0100 0100	68	44	D
0100 0101	69	45	E
0100 0110	70	46	F
0100 0111	71	47	G
0100 1000	72	48	H
0100 1001	73	49	I
0100 1010	74	4A	J
0100 1011	75	4B	K
0100 1100	76	4C	L
0100 1101	77	4D	M
0100 1110	78	4E	N
0100 1111	79	4F	O
0101 0000	80	50	P
0101 0001	81	51	Q
0101 0010	82	52	R
0101 0011	83	53	S
0101 0100	84	54	T
0101 0101	85	55	U
0101 0110	86	56	V
0101 0111	87	57	W
0101 1000	88	58	X
0101 1001	89	59	Y
0101 1010	90	5A	Z
0101 1011	91	5B	[
0101 1100	92	5C	\
0101 1101	93	5D	]
0101 1110	94	5E	^
0101 1111	95	5F	_
0110 0000	96	60	`
0110 0001	97	61	a
0110 0010	98	62	b
0110 0011	99	63	c
0110 0100	100	64	d
0110 0101	101	65	e
0110 0110	102	66	f
0110 0111	103	67	g
0110 1000	104	68	h
0110 1001	105	69	i
0110 1010	106	6A	j
0110 1011	107	6B	k
0110 1100	108	6C	l
0110 1101	109	6D	m
0110 1110	110	6E	n
0110 1111	111	6F	o
0111 0000	112	70	p
0111 0001	113	71	q
0111 0010	114	72	r
0111 0011	115	73	s
0111 0100	116	74	t
0111 0101	117	75	u
0111 0110	118	76	v
0111 0111	119	77	w
0111 1000	120	78	x
0111 1001	121	79	y
0111 1010	122	7A	z
0111 1011	123	7B	{
0111 1100	124	7C	\|
0111 1101	125	7D	}
0111 1110	126	7E	~

3.ISO-8859-1

128 个字符显然是不够用的，于是 ISO 组织在 ASCII 码基础上又制定了一些列标准用来扩展 ASCII 编码，它们是 ISO-8859-1~ISO-8859-15，其中 ISO-8859-1 涵盖了大多数西欧语言字符，所有应用的最广泛。ISO-8859-1 仍然是单字节编码，它总共能表示 256 个字符. 比如, 法语中的 é 的编码为 130(二进制10000010). 这样一来, 这些欧洲国家使用的编码体系, 可以表示最多 256 个符号.

但是, 这里又出现了新的问题. 不同的国家有不同的字母, 因此哪怕它们都使用256个符号的编码方式, 代表的字母却不一样. 比如, 130 在法语编码中代表了 é, 在希伯来语编码中却代表了字母 Gimel(ג), 在俄语编码中又会代表另一个符号. 但是不管怎样, 所有这些编码方式中, 0~127 表示的符号是一样的，不一样的只是 128~255 的这一段.

至于亚洲国家的文字, 使用的符号就更多了, 汉字就多达 10 万左右. 一个字节只能表示 256 种符号, 肯定是不够的, 就必须使用多个字节表达一个符号. 比如, 简体中文常见的编码方式是 GB2312, 使用两个字节表示一个汉字, 所以理论上最多可以表示 256 x 256 = 65536 个符号.

4. References

[1] ASCII-Wiki
[2] 字符编码笔记：ASCII，Unicode 和 UTF-8