字符编码的简介

字符编码的简介

什么是字符编码

由于计算机只能处理数字，要处理文本就必须先把文本转换为数字才能处理。最早的计算机设计时采用8个比特（bit）作为一个字节（byte），所以一个字节能表示的最大整数就是255（二进制11111111=十进制255）

字符编码表的发展史

由于计算机是美国人发明的。所以最早有127个字符被编码到计算机，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，要特别记忆的是大写字母A-Z编码是从65-90，小写字母a-z编码是从97-122，还有数字0-9编码是从48-57。

全世界有上百种语言，那么汉字，显然一个字节是不够用，那么至少就需要两个字节，并且不能和ASCII编码冲突，所以中国制定了GB2312编码，用来把中文编进去。日文就是把日文编进去Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode字符集应运而生。Unicode把所有语言都统一到一套编码里，这样解决了乱码的问题，但是又有一个新的问题，就是因为Unicode用两个字节表示一个字符，如果写的全部是英文的话，用Unicode编码比ASCII编码则需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	无	01001110 00101101	11100100 10111000 10101101

UTF-8编码好处就是，ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码软件可以继续在UTF-8编码下工作

字符编码工作方式

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

字符编码 - 图1

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器

字符编码 - 图2

所以在很多网页的源码开头上会有类似<meta charset="UTF-8" />的信息，表示该网页正是用的UTF-8编码。

编码与解码

编码

由字符转换成内存中的unicode，以及由unicode转换成其他编码的过程，都称为编码encode

s = '好好学习，天天向上'
print(s.encode('utf8'))
# b'\xe5\xa5\xbd\xe5\xa5\xbd\xe5\xad\xa6\xe4\xb9\xa0\xef\xbc\x8c\xe5\xa4\xa9\xe5\xa4\xa9\xe5\x90\x91\xe4\xb8\x8a'

解码

由内存中的unicode转换成字符，以及由其他编码转换成unicode的过程，都称为解码decode

s = b'\xe5\xa5\xbd\xe5\xa5\xbd\xe5\xad\xa6\xe4\xb9\xa0\xef\xbc\x8c\xe5\xa4\xa9\xe5\xa4\xa9\xe5\x90\x91\xe4\xb8\x8a'
print(s.decode('utf8'))
# 好好学习，天天向上

补充

字符串前面如果加了字母b 表示该数据类型为 bytes类型bytes类型可以看成是二进制
基于网络传输数据数据都必须是二进制格式，所以肯定涉及到编码与解码
内存中固定使用unicode无论输入任何字符都不会发生乱码
内存（unicode格式的二进制）硬盘（utf-8格式的二进制）

如何解决乱码的问题

数据以什么编码编的就以什么编码解

为何在内存中不直接使用utf-8呢？

utf-8是不定长的：一个英文字符占1Bytes，一个中文字符占3Bytes，生僻字用更多的Bytes存储也就意味着如果用户输入的字符是：你y好，在内存中需要先经历计算的过程：“你”应该用3Bytes，“y”应该用1Bytes，“好”应该用3Bytes，然后才能存储，所以内存中如果直接使用utf-8格式去存储字符，耗费的总时间=计算时间+存储时间，而内存中使用定长的unicode格式存储字符，就省去了计算时间，所以内存中使用unicode来存储字符会浪费空间，但是会提升速度，这是一种用空间换时间的方法

python解释器层面

python2

python2解释器默认的编码是ASCII码，所以在文件包含了中文在保存源代码时，就需要指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，通常有两种方式

1.文件头必须写在文件的最上方告诉解释器使用指定的编码

# conding:utf8 
# -*- conding:utf8-*-  (美化写法)

2.在使用python2解释器的环境下定义字符串习惯在前面加u

s = u'你好啊'

python3

python3解释器默认的编码是utf8

ASCII编码表

ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符
0	NUT	32	(space)	64	@	96	、
1	SOH	33	!	65	A	97	a
2	STX	34	“	66	B	98	b
3	ETX	35	#	67	C	99	c
4	EOT	36	$	68	D	100	d
5	ENQ	37	%	69	E	101	e
6	ACK	38	&	70	F	102	f
7	BEL	39	,	71	G	103	g
8	BS	40	(	72	H	104	h
9	HT	41	)	73	I	105	i
10	LF	42	*	74	J	106	j
11	VT	43	+	75	K	107	k
12	FF	44	,	76	L	108	l
13	CR	45	-	77	M	109	m
14	SO	46	.	78	N	110	n
15	SI	47	/	79	O	111	o
16	DLE	48	0	80	P	112	p
17	DCI	49	1	81	Q	113	q
18	DC2	50	2	82	R	114	r
19	DC3	51	3	83	S	115	s
20	DC4	52	4	84	T	116	t
21	NAK	53	5	85	U	117	u
22	SYN	54	6	86	V	118	v
23	TB	55	7	87	W	119	w
24	CAN	56	8	88	X	120	x
25	EM	57	9	89	Y	121	y
26	SUB	58	:	90	Z	122	z
27	ESC	59	;	91	[	123	{
28	FS	60	<	92	/	124	\|
29	GS	61	=	93	]	125	}
30	RS	62	>	94	^	126	`
31	US	63	?	95	_	127	DEL