AT&T语法

AT&T语法

我们在大学所学习的汇编语言大多数都是Intel语法，也许这和教学系统都是微软的操作系统DOS和Windows有关，翻翻过去的教材，一律全是DOS下汇编或Windows下汇编。Linux内核中的汇编代码一般都是AT&T语法，我想，随着Linux普及，以后在教学中会越来越多采取AT&T语法啦。

什么是AT&T语法？

AT&T是汇编语言的一种语法风格、格式。在某一处理器平台上，无论汇编代码是什么语法，其编译出来的机器码是一样的，所以不要误以为AT&T是一种新的机器语言。它仅仅是表达方式不同，意思是一样的。比如，。
AT&T首先在UNIX中使用，可当初UNIX并不是在x86处理器上开发的，最初是在PDP-11机器上开发的，后来又移植到VAX和68000的处理器上，所以AT&T的语法自然更接近于这些处理器的特性。虽然UNIX后来又移植到x86上了，但还是要尊重UNIX圈内的习惯，其汇编语法接近于那些前辈处理器上的语法，这就是AT&T语法。
无论语法再怎么变，汇编语言中指令关键字肯定不能有太大出入，名字非常接近，只是在指令名字的最后加上了操作数大小后缀，b表示1字节，w表示2字节，l表示4字节。比如压栈指令，Intel中是push，AT&T中是pushl，最后这个’l’表示压入4字节（long型大小）。在了解Intel汇编指令的情况下，基本上能够看懂AT&T的汇编指令。它们的主要差别是语法风格，咱们对照着看下这两种风格的区别吧。

无论是哪种汇编语言风格，都要有访问内存的能力，这就是内存寻址。

在Intel语法中，立即数就是普通的数字，如果让立即数成为内存地址，需要将它用中括号括起来，“[立即数]”这样才表示以“立即数”为地址的内存。
而AT&T认为，内存地址既然是数字，那数字也应该被当作内存地址，所以，数字被优先认为是内存地址，也就是说，操作数若为数字，则统统按以该数字为地址的内存来访问。这样，立即数的地位比较次要了，如果想表示成单纯的立即数，需要额外在前面加个前缀$。
Intel汇编语法中的很多寻址方式，就内存寻址来说，有直接寻址、基址寻址、变址寻址、基址变址寻址。也可能是习惯了的原因，我个人觉得Intel语法真的很直白，容易理解，尤其是在和AT&T的内存寻址相比较之后……
而在AT&T中的内存寻址还是挺独特的，它的内存寻址有固定的格式。
segreg（段基址）：base_address(offset_address,index,size)
该格式对应的表达式为：segreg（段基址）：base_address+ offset_address+ indexsize。
此表达式的格式和Intel 32位内存寻址中的基址变址寻址类似，Intel的格式：segreg:[base+indexsize+offset]
不过与Intel不同的是AT&T地址表达式的值是内存地址，直接被当作内存来读写，而不是普通数字。
看上去格式有些怪异，但其实这是一种“通用”格式，格式中短短的几个成员囊括了它所有内存寻址的方式，任意一种内存寻址方式，其格式都是这个通用格式的子集，都是格式中各种成员的组合。下面介绍下这些成员项。
base_address是基地址，可以为整数、变量名，可正可负。
offset_address是偏移地址。
index是索引值，这两个必须是那8个通用寄存器之一。
size是个长度，只能是1、2、4、8（Intel语法中也是只能乘以这4个数）。
下面看看内存寻址中有哪些方式，注意，这些方式都是上面通用格式的一部分。
直接寻址：此寻址中只有base_address项，即后面括号中的内容全不要，base_address便为内存啦，比如movl $255，0xc00008F0，或者用变量名：mov $6，var。
寄存器间接寻址：此寻址中只有offset_address项，即格式为（offset_address），要记得，offset_address只能是通用寄存器。寄存器中是地址（去这个地址取值），不要忘记格式中的圆括号，如mov (%eax), %ebx。
寄存器相对寻址：此寻址中有offset_address项和base_address项，即格式为base_address（offset_address）。这样得出的内存地址是基址+偏移地址之和。各部分还是要按照格式填写，如movb -4(%ebx),%al，功能是将地址（ebx-4）所指向的内存复制1字节到寄存器al。
变址寻址：此类寻址称为变址的原因是含有通用格式中的变量Index。因为index是size的倍数，所以有index的地方就有size。既然是变址，只要有index和size就成了，base_address和offset_address可有可无，注意，格式中没有的部分也要保留逗号来占位。一共有4种变址寻址组合，下面各举个例子。
无base_address，无offset_address：movl %eax, (,%esi,2) ; index和size功能是将eax的值写入esi2所指向的内存。
无base_address，有offset_address：movl %eax, (%ebx,%esi,2) ; 功能是将eax的值写入ebx+esi2所指向的内存。
有base_address，无offset_address：movl %eax, base_value(,%esi,2)功能是将eax的值写入base_value+esi2所指向的内存。
有base_address，有offset_address：movl %eax,base_value(%ebx,%esi,2)功能是将eax的值写入base_value+ebx+esi2所指向的内存。
好啦，AT&T就简单介绍到这，咱们重点是内联汇编。

基本内联汇编

基本内联汇编是最简单的内联形式，其格式为：asm [volatile] (“assembly code”)
各关键字之间可以用空格或制表符分隔，也可以紧凑挨在一起不分隔，各部分意义如下：
关键字asm用于声明内联汇编表达式，这是内联汇编固定的部分，不可少。
是由gcc定义的宏：#define
因为gcc有个优化选项-O，可以指定优化级别。当用-O来编译时，gcc按照自己的意图优化代码，说不定就会把自己所写的代码修改了。
关键字volatile是可选项，它告诉gcc：“不要修改我写的汇编代码，请原样保留”。
“assembly code”是咱们所写的汇编代码，它必须位于圆括号中，而且必须用双引号引起来。这是格式要求，只要满足了这个格式asm [volatile] (“”)，assembly code甚至可以为空。

下面说下assembly code的规则。

（1）指令必须用双引号引起来，无论双引号中是一条指令或多条指令。（2）一对双引号不能跨行，如果跨行需要在结尾用反斜杠’’转义。（3）指令之间用分号’；’、换行符’\n’或换行符加制表符’\n’’\t’分隔。
提醒一下，即使是指令分布在多个双引号中，gcc最终也要把它们合并到一起来处理，合并之后，指令间必须要有分隔符。
所以，当指令在多个双引号中时，除最后一个双引号外，其余双引号中的代码最后一定要有分隔符，这和其他编程语言中表示代码结束的分隔符是一样的，如：
asm(“movl $9,%eax;” ”pushl %eax”) 正确asm(“movl $9,%eax” ”pushl %eax”) 错误大家注意，在内联汇编中，咱们要注意操作数的顺序啦，现在是和Intel反着的。
给大家举个例子，见文件inlineASM.c。

#include <stdio.h>
/* 大家注意到没有，inlineASM.c中的变量count和str定义为全局变量。对的，在基本内联汇编中，若要引用C变量，只能将它定义为全局变量。如果定义为局部变量，链接时会找不到这两个符号 */
char* str="hello,world this is my first inlineASM.\n";
int len = 0;
int count = 0;
int result = 0;
int cont_str(char *s)
{
    int i = 0;
    while ( str[i] != 0) {
        printf("%d\n",str[i]);
        i++;
    }
    return i;
}
void main(){
len = cont_str(str);
printf("%d\n",len);
printf("\n");
/*寄存器前面加前缀%，立即数前面加前缀$，操作数由左到右的顺序。*/
/* write的功能是把buf指向的缓冲区中的count个字节写入fd指向的文件描述符，执行成功后返回写入的字节数，失败则返回-1。 write(1,"hello,world\n",4); */
/*
eax寄存器用来存储子功能号（寄存器eip、ebp、esp是不能使用的）。5个参数存放在以下寄存器中，传送参数的顺序如下。
（1）ebx存储第1个参数。
（2）ecx存储第2个参数。
（3）edx存储第3个参数。
（4）esi存储第4个参数。
（5）edi存储第5个参数。
*/
asm volatile (
    "pusha;/* 将8个通用寄存器压栈 */\
     movl $4,%eax;/* 传入第4号系统调用，这就是write的调用号*/\
     movl $1,%ebx;/* fd */\
     movl str,%ecx;/* buffer */\
     movl len,%edx;/* buffer_len */\
     int $0x80;/* 执行系统调用0x80 */\
     mov %eax,count;/* 获取write的返回值，返回值都是存储在eax寄存器中，所以将其复制到变量count中。 */\
     mov %eax, result;\
     popa;/* 将8个通用寄存器出栈 */\
     "
);
printf("The system caller 0x80's return value is %d\n",result);
}
gcc -m32 -o inlineASM.bin inlineASM.c

扩展内联汇编

asm [volatile] (“assembly code”:output : input : clobber/modify)和前面的基本内联汇编相比，扩展内联汇编在圆括号中变成了4部分，多了output、input和clobber/modify三项。其中的每一部分都可以省略，甚至包括assembly code。省略的部分要保留冒号分隔符来占位，如果省略的是后面的一个或多个连续的部分，分隔符也不用保留，比如省略了clobber/modify，不需要保留input后面的冒号。
assembly code：还是用户写入的汇编指令，和基本内联汇编一样。
汇编代码的运行是需要输入参数的，其运行之后也可产出结果。
在C代码中内嵌汇编的目的是让汇编帮助C完成某些功能，所以C代码就要为其提供参数和用于存放其输出结果的空间。这样一来，内联汇编代码类似机器，C代码类似人。机器要运行，人就要为机器提供加工的源材料（input），机器运行后，将生产出来的成果放到人能够得着的地方（output），人才能获取机器的输出结果。input和output正是C为汇编提供输入参数和存储其输出的部分，这是汇编与c交互的关键，我们之前的讨论就通过这两项解决。
output:output用来指定汇编代码的数据如何输出给C代码使用。内嵌的汇编指令运行结束后，如果想将运行结果存储到c变量中，就用此项指定输出的位置。output中每个操作数的格式为：
“操作数修饰符约束名”（C变量名）
其中的引号和圆括号不能少，操作数修饰符通常为等号’=’。多个操作数之间用逗号’，’分隔。
input：input用来指定C中数据如何输入给汇编使用。要想让汇编使用C中的变量作为参数，就要在此指定。input中每个操作数的格式为：
“[操作数修饰符] 约束名”（C变量名）
其中的引号和圆括号不能少，操作数修饰符为可选项。多个操作数之间用逗号’，’分隔。
单独强调一下，以上的output()和input()括号中的是C代码中的变量，output（c变量）和input（c变量）就像C语言中的函数，将C变量（值或变量地址）转换成汇编代码的操作数。
clobber/modify：汇编代码执行后会破坏一些内存或寄存器资源，通过此项通知编译器，可能造成寄存器或内存数据的破坏，这样gcc就知道哪些寄存器或内存需要提前保护起来，后面会展开细说。
assembly code中引用的所有操作数其实是经过gcc转换后的复本，“原件”都是在output和input括号中的c变量，后面通过各种例子您就明白了。
上面所说的“要求”，在扩展内联汇编中称为“约束”，它所起的作用就是把C代码中的操作数（变量、立即数）映射为汇编中所使用的操作数，实际就是描述C中的操作数如何变成汇编操作数。这些约束的作用域是input和output部分，咱们看看这些约束是怎么体现的，约束分为四大类。
-　寄存器约束
寄存器约束就是要求gcc使用哪个寄存器，将input或output中变量约束在某个寄存器中。常见的寄存器约束有：
a：表示寄存器eax/ax/al
b：表示寄存器ebx/bx/bl
c：表示寄存器ecx/cx/cl
d：表示寄存器edx/dx/dl
D：表示寄存器edi/di
S：表示寄存器esi/si
q：表示任意这4个通用寄存器之一：eax/ebx/ecx/edx
r：表示任意这6个通用寄存器之一：eax/ebx/ecx/edx/esi/edi
g：表示可以存放到任意地点（寄存器和内存）。相当于除了同q一样外，还可以让gcc安排在内存中
A：把eax和edx组合成64位整数
f：表示浮点寄存器t：表示第1个浮点寄存器
u：表示第2个浮点寄存器
下面咱们先暂停一下，体验一下基本内联汇编和扩展内联汇编的区别，用加法指令addl在两种方式下做个简单的加法运算。

在基本内联汇编中的寄存器用单个%做前缀，在扩展内联汇编中，单个%有了新的用途，用来表示占位符（一会儿细讲），所以在扩展内联汇编中的寄存器前面用两个%做前缀。

扩展内联汇编中寄存器前缀是两个%。同样是为加法指令提供参数，in_a和in_b是在input部分中输入的，用约束名a为c变量in_a指定了用寄存器eax，用约束名b为c变量in_b指定了用寄存器ebx。addl指令的结果存放到了寄存器eax中，在output中用约束名a指定了把寄存器eax的值存储到c变量out_sum中。output中的’=’号是操作数类型修饰符，表示只写，其实就是out_sum=eax的意思。

-　内存约束\
内存约束是要求gcc直接将位于input和output中的C变量的内存地址作为内联汇编代码的操作数，不需要寄存器做中转，直接进行内存读写，也就是汇编代码的操作数是C变量的指针。
m：表示操作数可以使用任意一种内存形式。
o：操作数为内存变量，但访问它是通过偏移量的形式访问，即包含offset_address的格式。

-　立即数约束
立即数即常数，此约束要求gcc在传值的时候不通过内存和寄存器，直接作为立即数传给汇编代码。由于立即数不是变量，只能作为右值，所以只能放在input中。
i：表示操作数为整数立即数
F：表示操作数为浮点数立即数
I：表示操作数为0～31之间的立即数
J：表示操作数为0～63之间的立即数
N：表示操作数为0～255之间的立即数
O：表示操作数为0～32之间的立即数
X：表示操作数为任何类型立即数
为节约篇幅，后面将立即数约束同其他约束一起演示，这里没有单独样例。

-　通用约束
0～9：此约束只用在input部分，但表示可与output和input中第n个操作数用相同的寄存器或内存。

写给你我的知识