背景
注:与Java一样,一个varchar表示占用一个字符,无论是中文还是ASCII码,不过底层占用的字节不一样而已。 例如Java里,一个char 表示一个字符,可以存一个汉字,或字母,但是汉字的字节占用3个,字母则占用1个。
@Test
public void test() {
char c = '我';
char c1 = 'a';
System.out.println(Character.valueOf(c).toString().length()); // 1
System.out.println(Character.valueOf(c).toString().getBytes().length); // 3
System.out.println(Character.valueOf(c1).toString().length()); // 1
System.out.println(Character.valueOf(c1).toString().getBytes().length); // 1
}
varchar类型
1)varchar (N):中的N指的是字符的长度,即:该字段最多能存储多少个字符(characters),不是字节数。不管是一个中英文字符或者数字、或者一个汉字,都当做一个字符。
【 a,我,1 都是一个字符,但是a和1是一个字节,‘我’(utf8下)是3个字节。 utf8mb4下:汉字也是3个字节,表情符号是4个字节 】
2)varchar 最多能存储 65535 个字节的数据。
65535 = 所有字段的长度 + 变长字符的长度标识 + NULL标识位
变长字符的长度标识:用1到2个字节表示实际长度(长度 >255 时,需要2个字节; <255 时,需要1个字节)
NULL标识位:varchar字段定义中带有 default null 允许列空,则需要 1 bit 来标识,每 8 个bits的标识组成一个字段。一张表中存在N个varchar字段,那么需要(N+7)/8 (取整)bytes存储所有的NULL标识位。
3)虽然InnoDB内部支持 varchar 65535 字节的行大小,但是MySQL本身对所有列的合并大小施加了 65535 字节的行大小限制。详情见例子
varchar编码
字符类型若为gbk,每个字符最多占2个字节,最大长度不能超过32766;
字符类型若为utf8,每个字符最多占3个字节,最大长度不能超过21845。
字符类型若为utf8mb4,每个字符最多占4个字节,最大长度不能超过16283。
若定义的时候超过上述限制,则varchar字段会被强行转为text类型,并产生warning。
示例
若一个表定义为
create table t4(c int, c2 char(30), c3 varchar(N)) charset=utf8;
则此处N的最大值为 (65535-1-2-4-303)/3=21812
减 1:实际行存储从第二个字节开始;
减 2:varchar 头部的2个字节表示长度
减 4:原因是int类型的c占4个字节;
减 303:原因是char(30)占用90个字节,编码是utf8。
如果被varchar超过上述的b规则,被强转成text类型,则每个字段占用定义长度为11字节,当然这已经不是“varchar”了。
mysql> alter table t4 modify column c3 varchar(21813);
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs