ARM处理器有两个主要的操作状态,ARM模式以及Thumb模式(Jazelle模式先不考虑)。这些模式与特权模式并不冲突。SVC模式既可以在ARM下调用也可以在Thumb下调用。
只不过两种状态的主要不同是指令集的不同,ARM模式的指令集宽度是32位Thumb16位宽度(但也可以是32位)。知道何时以及如何使用Thumb模式对于ARM漏洞利用的开发尤其重要。当我们写ARMshellcode时候,我们需要尽可能的少用NULL以及使用16位宽度的Thumb指令以精简代码。
不同版本ARM,其调用约定不完全相同,而且支持的Thumb指令集也是不完全相同。在某些版本山,ARM提出了扩展型Thumb指令集(也叫Thumbv2),允许执行32位宽的Thumb指令以及之前版本不支持的条件执行。为了在Thumb模式下使用条件执行指令,Thumb提出了IT分支指令。然而,这条指令在之后的版本又被更改移除了,说是为了让一些事情变得更加简单方便。我并不清楚各个版本的ARM架构所支持的具体的ARM/Thumb指令集,而且我也的确不想知道。我觉得你也应该不用深究这个问题。因为你只需要知道你设备上的关键ARM版本所支持的Thumb指令集就可以了。以及ARM信息中心可以帮你弄清楚你的ARM版本到底是多少。 就像之前说到的,Thumb也有很多不同的版本。不过不同的名字仅仅是为了区分不同版本的Thumb指令集而已(也就是对于处理器来说,这些指令永远都是Thumb指令)。

  • Thumb-1(16位宽指令集):在ARMv6以及更早期的版本上使用。
  • Thumb-2(16位/32位宽指令集):在Thumb-1基础上扩展的更多的指令集(在ARMv6T2以及ARMv7即很多32位Android手机所支持的架构上使用)
  • Thumb-EE:包括一些改变以及对于动态生成代码的补充(即那些在设备上执行前或者运行时编译的代码)

    ARM与Thumb的不同之处

    对于条件执行指令(不是条件跳转指令):所有的ARM状态指令都支持条件执行。一些版本的ARM处理器上允许在Thumb模式下通过IT汇编指令进行条件执行。条件执行减少了要被执行的指令数量,以及用来做分支跳转的语句,所以具有更高的代码密度。 ARM模式与Thumb模式的32位指令:Thumb的32位汇编指令都有类似于a.w的扩展后缀。 桶型移位是另一种独特的ARM模式特性。它可以被用来减少指令数量。比如说,为了减少使用乘法所需的两条指令(乘法操作需要先乘2然后再把结果用MOV存储到另一个寄存器中),就可以使用在MOV中自带移位乘法操作的左移指令(Mov R1, R0, LSL #1)。 在ARM模式与Thumb模式间切换的话,以下两个条件之一必须满足: 我们可以在使用分支跳转指令BX(branch and exchange)或者分支链接跳转指令BLX(branch,link and exchange)时,将目的寄存器的最低位置为1。之后的代码执行就会在Thumb模式下进行。你也许会好奇这样做目标跳转地址不就有对齐问题了么,因为代码都是2字节或者4字节对齐的?但事实上这并不会造成问题,因为处理器会直接忽略最低比特位的标识。 我们之前有说过,在CPSR当前程序状态寄存器中,T标志位用来代表当前程序是不是在Thumb模式下运行的。

    ARM指令集规律含义

    这一节的目的是简要的介绍ARM的通用指令集。知道每一句汇编指令是怎么操作使用,相互关联,最终组成程序是很重要的。之前说过,汇编语言是由构建机器码块的指令组成。所以ARM指令通常由助记符外加一到两个跟在后面的操作符组成,如下面的模板所示:
    1. MNEMONIC{S}{condition} {Rd}, Operand1, Operand2

    助记符{是否使用CPSR}{是否条件执行以及条件} {目的寄存器}, 操作符1, 操作符2

由于ARM指令的灵活性,不是全部的指令都满足这个模板,不过大部分都满足了。下面来说说模板中的含义:

  • MNEMONIC: 指令的助记符如ADD
  • {S}: 可选的扩展位,如果指令后加了S,则需要依据计算结果更新CPSR寄存器中的条件跳转相关的FLAG
  • {condition} : 如果机器码要被条件执行,那它需要满足的条件标示
  • {Rd} : 存储结果的目的寄存器
  • Operand1 : 第一个操作数,寄存器或者是一个立即数
  • Operand2: 第二个(可变的)操作数,可以是一个立即数或者寄存器或者有偏移量的寄存器

当助记符,S,目的寄存器以及第一个操作数都被声明的时候,条件执行以及第二操作数需要一些声明。因为条件执行是依赖于CPSR寄存器的值的,更精确的说是寄存器中的一些比特位。第二操作数是一个可变操作数,因为我们可以以各种形式来使用它,立即数,寄存器,或者有偏移量的寄存器。举例来说,第二操作数还有如下操作:

  1. #123 - 立即数
  2. Rx - 寄存器比如R1
  3. Rx, ASR n - 对寄存器中的值进行算术右移n位后的值
  4. Rx, LSL n - 对寄存器中的值进行逻辑左移n位后的值
  5. Rx, LSR n - 对寄存器中的值进行逻辑右移n位后的值
  6. Rx, ROR n - 对寄存器中的值进行循环右移n位后的值
  7. Rx, RRX - 对寄存器中的值进行带扩展的循环右移1位后的值

在知道了这个机器码模板后,然我们试着去理解这些指令:

  1. ADD R0, R1, R2 - 将第一操作数R1的内容与第二操作数R2的内容相加,将结果存储到R0中。
  2. ADD R0, R1, #2 - 将第一操作数R1的内容与第二操作数一个立即数相加,将结果存到R0中
  3. MOVLE R0, #5 - 当满足条件LE(Less and Equal,小于等于0)将第二操作数立即数5移动到R0中,注意这条指令与MOVLE R0, R0, #5相同
  4. MOV R0, R1, LSL #1 - 将第二操作数R1寄存器中的值逻辑左移1位后存入R0

最后我们总结一下,满足这个模板的一些通用ARM指令集以及其含义:
03.ARM模式和基础指令 - 图1

基础指令概述

MOV

它的传送指令只能是把一个寄存器的值(要能用立即数表示)赋给另一个寄存器,或者将一个常量赋给寄存器,将后边的量赋给前边的量。
MOV指令的格式为:MOV{条件}{S} 目的寄存器,源操作数
MOV指令中,条件缺省时指令无条件执行;S选项决定指令的操作是否影响CPSR中条件标志位的值,当没有S时指令不更新CPSR中条件标志位的值。
指令示例:

  1. MOV R1R0 ;将寄存器R0的值传送到寄存器R1
  2. MOV PCR14 ;将寄存器R14的值传送到PC,常用于子程序返回
  3. MOV R1R0LSL3 ;将寄存器R0的值左移3位后传送到R1(即乘8
  4. MOVS PC, R14 ;将寄存器R14的值传送到PC中,返回到调用代码并恢复标志位

03.ARM模式和基础指令 - 图2

MVN

MVN指令的格式为:
MVN{条件}{S} 目的寄存器,源操作数
MVN指令可完成从另一个寄存器、被移位的寄存器、或将一个立即数加载到目的寄存器。与MOV指令不同之处是在传送之前按位被取反了,即把一个被取反的值传送到目的寄存器中。其中S决定指令的操作是否影响CPSR中条件标志位的值,当没有S时指令不更新CPSR中条件标志位的值。
指令示例:

  1. MVN R0,#0 ;将立即数0取反传送到寄存器R0中,完成后R0=-1(有符号位取反)

ADD

ADD指令的格式为:
ADD{条件}{S} 目的寄存器,操作数1,操作数2
ADD指令用于把两个操作数相加,并将结果存放到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。
指令示例:

  1. ADD R0R1R2 R0 = R1 + R2
  2. ADD R0R1,#256 R0 = R1 + 256
  3. ADD R0R2R3LSL#1 ; R0 = R2 + (R3 << 1)

SUB

SUB指令的格式为:
SUB{条件}{S} 目的寄存器,操作数1,操作数2
SUB指令用于把操作数1减去操作数2,并将结果存放到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。该指令可用于有符号数或无符号数的减法运算。
指令示例:

  1. SUB R0R1R2 R0 = R1 - R2
  2. SUB R0R1,#256 R0 = R1 - 256
  3. SUB R0R2R3LSL#1 ; R0 = R2 - (R3 << 1)

MUL

  1. MUL R0,R1,R2; R0=R1*R2
  2. MUL R0,R1,#3 ;R0=R1*3

LSL、LSR、ASR和ROR

LSL可完成对通用寄存器中的内容进行逻辑的左移操作,按操作数所指定的数量向左移位,低位用零来填充。其中,操作数可以是通用寄存器,也可以是立即数( 0~ 31 )。
LSR可完成对通用寄存器中的内容进行右移的操作,按操作数所指定的数量向右移位,左端用零来填充。其中,操作数可以是通用寄存器,也可以是立即数( 0~ 31 )。
ASR可完成对通用寄存器中的内容进行右移的操作,按操作数所指定的数量向右移位,左端用第31位的值来填充。其中,操作数可以是通用寄存器,也可以是立即数( 0~ 31 )。
ROR可完成对通用寄存器中的内容进行循环右移的操作,按操作数所指定的数量向右循环移位,左端用右端移出的位来填充。其中,操作数可以是通用寄存器,也可以是立即数( 0~ 31 )。显然,当进行 32位的循环右移操作时,通用寄存器中的值不改变。

  1. MOV R0, R1, LSL#2;将 R1中的内容左移两位后传送到 R0中。
  2. MOV R0, R1, LSR#2;将 R1中的内容右移两位后传送到 R0中,左端用零来填充。
  3. MOV R0, R1, ASR#2;将 R1中的内容右移两位后传送到 R0中,左端用第 31位的值来填充。
  4. MOV R0, R1, ROR#2;将 R1中的内容循环右移两位后传送到 R0中。

CMP

CMP指令格式为:
CMP{条件}{S} 操作数1,操作数2
CMP允许把一个寄存器的内容如另一个寄存器的内容或立即值进行比较,更改状态标志来允许进行条件执行。它进行一次减法,但不存储结果,而是正确的更改标志。标志表示的是操作数 1 比操作数 2 如何(大小等)。如果操作数 1 大于操作操作数 2,则此后的有 GT 后缀的指令将可以执行。
示例:

  1. CMP R0, #1 ; 把 R0 与 1 进行比较

CMN

CMN指令的格式为:
CMN{条件}{S} 操作数1,操作数2
CMN指令用于把一个寄存器的内容和另一个寄存器的内容或立即数取反后进行比较,同时更新CPSR中条件标志位的值。该指令实际完成操作数1和操作数2相加,并根据结果更改条件标志位。

  1. CMN R0, #1 ; 把 R0 与 -1 进行比较

AND和ORR

AND指令的格式为:
AND{条件}{S} 目的寄存器,操作数1,操作数2
ORR指令的格式为:
ORR{条件}{S} 目的寄存器,操作数1,操作数2
AND指令用于在两个操作数上进行逻辑与运算,并把结果放置到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。该指令常用于屏蔽操作数1的某些位。 ORR指令用于在两个操作数上进行逻辑或运算,并把结果放置到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。该指令常用于设置操作数1的某些位。

  1. AND R0R0,#3 该指令保持R001位,其余位清零。
  2. ORR R0R0,#3 该指令设置R001位,其余位保持不变。

EOR和BIC

EOR指令格式:
EOR{条件}{S} 目的寄存器,操作数1,操作数2
BIC指令格式:
BIC{条件}{S} 目的寄存器,操作数1,操作数2
EOR指令用于在两个操作数上进行逻辑异或运算,并把结果放置到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。该指令常用于反转操作数1的某些位。 BIC指令用于清除操作数1的某些位,并把结果放置到目的寄存器中。操作数1应是一个寄存器,操作数2可以是一个寄存器,被移位的寄存器,或一个立即数。操作数2为32位的掩码,如果在掩码中设置了某一位,则清除这一位。未设置的掩码位保持不变。

  1. EOR R0R0,#3 该指令反转R001位,其余位保持不变。
  2. BIC R0R0,#%1011 该指令清除 R0 中的位 01、和 3,其余的位保持不变。

TST和TEQ

TST指令格式:
TST{条件}{S} 操作数1,操作数2
TEQ指令格式:
TEQ{条件}{S} 操作数1,操作数2
TST指令用于把一个寄存器的内容和另一个寄存器的内容或立即数进行按位的与运算,并根据运算结果更新CPSR中条件标志位的值。操作数1是要测试的数据,而操作数2是一个位掩码,该指令一般用来检测是否设置了特定的位。 TEQ指令用于把一个寄存器的内容和另一个寄存器的内容或立即数进行按位的异或运算,并根据运算结果更新CPSR中条件标志位的值。该指令通常用于比较操作数1和操作数2是否相等。

  1. TST R1,#%1 ;用于测试在寄存器R1中是否设置了最低位(%表示二进制数)
  2. TST R1,#0xffe ;将寄存器R1的值与立即数0xffe按位与,并根据结果设置CPSR的标志位
  3. TEQ R1R2 ;将寄存器R1的值与寄存器R2的值按位异或,并根据结果设置CPSR的标志位

LDR、LDRB、LDRH

LDR的指令形态:

  1. LDR Rd, [Rbase] # 将Rbase所包含的有效地址的数据存储Rd。
  2. LDR Rd, [Rbase, Rindex] # 将Rbase + Rindex 所合成的有效地址的数据存储到Rd 。
  3. LDR Rd, [Rbase, #index] # 将Rbase + index 所合成的有效地址的数据存储到Rd。index 是一个立即值。例如,LDR Rd, [R1, #16] 将把 R1+16地址上的数据存储到Rd。
  4. LDR Rd, [Rbase, Rindex]! # 将Rbase + Rindex所合成的有效地址的数据存储到Rd,并且把这个新地址写回到 Rbase。
  5. LDR Rd, [Rbase, #index]! # 将Rbase + index 所合成的有效地址的数据存储到Rd,并且并且把这个新地址写回到 Rbase。
  6. LDR Rd, [Rbase], Rindex # 将Rbase所包含的有效地址的数据存储到Rd。把 Rbase + Rindex 所合成的有效地址写回 Rbase。
  7. LDR Rd, [Rbase, Rindex, LSL #2] # 将Rbase + (Rindex * 4) 所合成的有效地址的数据存储到Rd。
  8. LDR Rd, place # 将PC + place 所合成的有效地址的数据存储到Rd

LDR指令格式:
LDR{条件} Rd, <地址>
LDR指令用于从存储器中将一个32位的字数据传送到目的寄存器中。该指令通常用于从存储器中读取32位的字数据到通用寄存器,然后对数据进行处理。当程序计数器PC作为目的寄存器时,指令从存储器中读取的字数据被当作目的地址,从而可以实现程序流程的跳转。
指令示例:

  1. LDR R0,[R1] ;将存储器地址为R1的字数据读入寄存器R0
  2. LDR R0,[R1R2] ;将存储器地址为R1+R2的字数据读入寄存器R0
  3. LDR R0,[R1,#8] ;将存储器地址为R1+8的字数据读入寄存器R0
  4. LDR R0,[R1R2] ;将存储器地址为R1+R2的字数据读入寄存器R0,并将新地址R1R2写入R1
  5. LDR R0,[R1,#8] ;将存储器地址为R1+8的字数据读入寄存器R0,并将新地址R18写入R1
  6. LDR R0,[R1],R2 ;将存储器地址为R1的字数据读入寄存器R0,并将新地址R1R2写入R1
  7. LDR R0,[R1R2LSL2]! ;将存储器地址为R1R2×4的字数据读入寄存器R0,并将新地址R1R2×4写入R1
  8. LDR R0,[R1],R2LSL2 ;将存储器地址为R1的字数据读入寄存器R0,并将新地址R1R2×4写入R1

LDRB指令格式:
LDR{条件}B Rd, <地址>
LDRB指令用于从存储器中将一个8位的字节数据传送到目的寄存器中,同时将寄存器的高24位清零。该指令通常用于从存储器中读取8位的字节数据到通用寄存器,然后对数据进行处理。当程序计数器PC作为目的寄存器时,指令从存储器中读取的字数据被当作目的地址,从而可以实现程序流程的跳转。

  1. LDRB R0,[R1] ;将存储器地址为R1的字节数据读入寄存器R0,并将R0的高24位清零。
  2. LDRB R0,[R1,#8] ;将存储器地址为R18的字节数据读入寄存器R0,并将R0的高24位清零。

LDRH指令格式:
LDR{条件}H Rd, <地址>
LDRH指令用于从存储器中将一个16位的半字数据传送到目的寄存器中,同时将寄存器的高16位清零。该指令通常用于从存储器中读取16位的半字数据到通用寄存器,然后对数据进行处理。当程序计数器PC作为目的寄存器时,指令从存储器中读取的字数据被当作目的地址,从而可以实现程序流程的跳转。

  1. LDRH R0,[R1] ;将存储器地址为R1的半字数据读入寄存器R0,并将R0的高16位清零。
  2. LDRH R0,[R1,#8] ;将存储器地址为R18的半字数据读入寄存器R0,并将R0的高16位清零。
  3. LDRH R0,[R1R2] ;将存储器地址为R1R2的半字数据读入寄存器R0,并将R0的高16位清零。

STR、STRB和STRH

STR的指令形态:

  1. STR Rd, [Rbase] # 存储Rd到Rbase所包含的有效地址。
  2. STR Rd, [Rbase, Rindex] # 存储 Rd 到 Rbase + Rindex 所合成的有效地址。
  3. STR Rd, [Rbase, #index] # 存储 Rd 到 Rbase + index 所合成的有效地址。index 是一个立即值。例如,STR Rd, [R1, #16] 将把 Rd 存储到 R1+16。
  4. STR Rd, [Rbase, Rindex]! # 存储 Rd 到 Rbase + Rindex 所合成的有效地址,并且把这个新地址写回到 Rbase。
  5. STR Rd, [Rbase, #index]! # 存储 Rd 到 Rbase + index 所合成的有效地址,并且并且把这个新地址写回到 Rbase。
  6. STR Rd, [Rbase], Rindex # 存储 Rd 到 Rbase 所包含的有效地址。把 Rbase + Rindex 所合成的有效地址写回 Rbase。
  7. STR Rd, [Rbase, Rindex, LSL #2] # 存储 Rd 到 Rbase + (Rindex * 4) 所合成的有效地址。
  8. STR Rd, place # 存储 Rd 到 PC + place 所合成的有效地址。

STR的指令格式:
STR{条件} Rd, <地址>
STR指令用于从源寄存器中将一个32位的字数据传送到存储器中。该指令在程序设计中比较常用,且寻址方式灵活多样,使用方式可参考指令LDR。

  1. STR R0,[R1],#8 ;将R0中的字数据写入以R1为地址的存储器中,并将新地址R18写入R1
  2. STR R0,[R1,#8] ;将R0中的字数据写入以R18为地址的存储器中。

STRB的指令格式:
STR{条件}B Rd, <地址>
STRB指令用于从源寄存器中将一个8位的字节数据传送到存储器中。该字节数据为源寄存器中的低8位。

  1. STRB R0,[R1] ;将寄存器R0中的字节数据写入以R1为地址的存储器中。
  2. STRB R0,[R1,#8] ;将寄存器R0中的字节数据写入以R18为地址的存储器中

STRH的指令格式:
STR{条件}H Rd, <地址>
STRH指令用于从源寄存器中将一个16位的半字数据传送到存储器中。该半字数据为源寄存器中的低16位。

  1. STRH R0,[R1] ;将寄存器R0中的半字数据写入以R1为地址的存储器中。
  2. STRH R0,[R1,#8] ;将寄存器R0中的半字数据写入以R18为地址的存储器中。

MRS和MSR

MRS指令的格式为:
MRS{条件} 通用寄存器,程序状态寄存器(CPSR或SPSR)
MRS指令用于将程序状态寄存器的内容传送到通用寄存器中。该指令一般用在以下几种情况:

  1. MRS R0CPSR ;传送CPSR的内容到R0
  2. MRS R0SPSR ;传送SPSR的内容到R0

MSR指令的格式为:
MSR{条件} 程序状态寄存器(CPSR或SPSR) 通用寄存器
MSR指令用于将操作数的内容传送到程序状态寄存器的特定域中。其中,操作数可以为通用寄存器或立即数。<域>用于设置程序状态寄存器中需要操作的位,32位的程序状态寄存器可分为4个域:

  • 位[31:24]为条件标志位域,用f表示;
  • 位[23:16]为状态位域,用s表示;
  • 位[15:8]为扩展位域,用x表示;
  • 位[7:0]为控制位域,用c表示;

该指令通常用于恢复或改变程序状态寄存器的内容,在使用时,一般要在MSR指令中指明将要操作的域。

  1. MSR CPSRR0 ;传送R0的内容到CPSR
  2. MSR SPSRR0 ;传送R0的内容到SPSR
  3. MSR CPSR_cR0 ;传送R0的内容到CPSR,但仅仅修改CPSR中的控制位域