UTF-8编码方式

采用单字节码元进行编码。所以一个字符编号会被映射为2、3、4个码元。
关键点因为utf-8采用单字节编码,所以没有字节序的问题。

  • 如果首字节以0开头,肯定是单字节编码(即单个单字节码元);
  • 如果首字节以110开头,肯定是双字节编码(即由两个单字节码元所组成的双码元序列);
  • 如果首字节以1110开头,肯定是三字节编码(即由三个单字节码元所组成的三码元序列),以此类推。

image.png