本章主要内容来源于秦朋先生编著的《PHP7内核剖析》这本书籍,感兴趣的小伙伴可以购买该书,进行系统性学习。

概述


PHP中并没有使用char来表示字符串,而是为字符串单独的定义了一个结构:zend_string。zend_value中通过str指针指向具体的结构。

变量实现


zend_string除了字符串内容,还存储了其他信息,具体结构如下:

  1. typedef struct _zend_string zend_string;
  2. struct _zend_string {
  3. zend_refcounted_h gc;
  4. zend_ulong h; /* hash value */
  5. size_t len;
  6. char val[1];
  7. };
  • gc:表示变量的引用计数信息,用于内存管理。
  • h:字符串通过Times33算法计算得到的Hash Code,在字符串被当做数组的Key时才被初始化,这样同一个字符串被多次当做Key时,避免重复计算。
  • len:字符串长度。
  • val[1]:字符串内容。

字符串内容的存储并没有使用char *类型,而是使用了一个柔性数组(可变数组)val[1]。val[1]并不代表它只能存储一个字节,字符串分配时实际上是在结构体空间地址后分配一段连续的空间,这块空间的起始位置就是val,这样就可以直接将字符串内容存储到val中,通过val进行读取。

所有结构体最后使用长度为0或1的柔性数组的原因,主要是为了方便的管理内存缓冲区,如果你直接使用指针而不使用数组,那么,你在分配内存缓冲区时,就必须分配结构体一次,然后再分配结构体内的指针一次,(而此时分配的内存已经与结构体的内存不连续了,所以要分别管理即申请和释放)而如果使用数组,那么只需要一次就可以全部分配出来,反过来,释放时也是一样,使用数组,一次释放,使用指针,得先释放结构体内的指针,再释放结构体。还不能颠倒次序。

概述来讲,好处就是分配一段连续的的内存,减少内存的碎片化。

另外,PHP中使用val[1]而不是val[0],原因可能有如下两点:

  • 某些编译器不支持长度为0的数组的定义,在这种情况下,只能将它定义成char val[1],为了更好的兼容或者跨编译器。
  • C字符串以”\0”结尾,多出的一个字符正好存储”\0”。