Unicode(统一码、万国码、单一码,Universal Multiple-Octet Coded Character Set,ISO推动制定的)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。

    Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

    Unicode通常用两个字节表示一个字符(共16位),原有的英文编码(ASCII)从单字节变成双字节,只需要把高字节全部填为0就可以**。

    在表示一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字(4个16进制数)来表示这一个字符。在基本多文种平面(英文为 Basic Multilingual Plane,简写 BMP。它又简称为“零号平面”, plane 0)里的所有字符,要用四位十六进制数(例如U+4AE0,共支持六万多个字符);在零号平面以外的字符则需要使用五位或六位十六进制数了。旧版的Unicode标准使用相近的标记方法,但却有些微的差异:在Unicode 3.0里使用“U-”然后紧接着八位数,而“U+”则必须随后紧接着四位数。

    在Unicode中:汉字“字”对应的数字是23383(十进制),十六进制表示为5B57。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8UTF-16UTF-32

    UTF是“Unicode Transformation Format”的缩写,可以翻译成Unicode字符集转换格式**,即怎样将Unicode定义的数字转换成程序数据(详见:UTF-8_Unicode的一种可变长度字符编码)。