一、u-boot 目录
一般移植 U-BOOT 会修改绿色部分的代码,U-BOOT 中各目录间也是有层次结构的,虽然这种分法不是绝对的,但是在移植过程中可以提供一些指导意义。
可以通过 “内容一的举例” 来看看移植过程中需要更改哪些文件,我将其放在文末。
二、U-BOOT 功能
要学习 u-boot 之前,最好先了解一块板子的裸板程序启动的过程,因为 u-boot 其实就是裸板程序的集大成者。
U-boot 的主线目标功能是从 flash 中读出内核,放到内存中,启动内核。为了要实现这个功能,u-boot 分为两个阶段,主要在 start.s 文件中。
1、第一阶段
硬件设备初始化;
为加载 Bootloader 的第二阶段代码准备 RAM 空间;
复制 Bootloader 的第二阶段代码到 RAM 空间中;
设置好栈;
跳转到第二阶段代码的 C 入口点(start_armboot);
备注:在第一阶段进行的硬件初始化一般包括:关闭 WATCHDOG、关中断、设置 CPU 的速度和时钟频率、 RAM 初始化等。这些并不都是必须的,比如 S3C2410/S3C2440 的开发板所使用的 U-Boot 中,就将 CPU 的速度和时钟频率放在第二阶段进行设置。
2、第二阶段
初始化本阶段要使用到的硬件设备;
检测系统内存映射( Memory map );
将内核映像和根文件系统映像从 Flash 上读到 RAM 空间中;
为内核设置启动参数;
调用内核;
备注:为了方便开发,初始化一个串口以便程序员与 Bootloader 进行交互。部分内容的解释在文末,名为 “内容二的解释”。
三、u-boot 源码查看前置步骤
将 u-boot 源码放在 linux 系统下编译(需要配置交叉编译工具),设置为板子的配置(如 make smdk2410_config),再编译(make),最好的办法是拿一个开发板的 u-boot 源码进行编译,因为开发板厂商一般都会提供编译环境等(这些问题不该在初学时就遇到,否则会极大降低学习的积极性),编译成功后,将代码复制到 windows 下用 source insight 查看代码(这样看代码之间的互联性比较方便)。
以我的板子(jz2440 为例),将全部目录加进 SI 后,要去掉部分不是 2440 板子的板级文件(注:加入文件时,如果不能加入. S 文件,需要更改 SI 的设置)
board 目录只留 samsung/smdk2410;
arch 目录只留:(注意要加入各层的通用文件(未在文件夹内的))
a、arm/cpu/arm920t/s3c24x0 以及各层的通用文件(未在文件夹内的)
b、arm/cpu/dts
c、arm/include/asm/arch-s3c24x0 和 proc-armv 以及各层的通用文件(未在文件夹内的)
d、arm/lib
include/config 目录只加 smdk2410.h
再同步(project-synchronize files)
四、源码分析(第一阶段)
最传统的方法是从 makefile 开始分析,但是较为复杂,先直接从网上找到结论:从文件层面上看主要流程是在两个文件中:cpu/arm920t/start.s,lib_arm/board.c。
打开 cpu/arm920t/start.S
1、建立异常向量表
.globl _start
_start:
b reset
ldr pc, _undefined_instruction
ldr pc, _software_interrupt
ldr pc, _prefetch_abort
ldr pc, _data_abort
ldr pc, _not_used
ldr pc, _irq
ldr pc, _fiq
_undefined_instruction: .word undefined_instruction
_software_interrupt: .word software_interrupt
_prefetch_abort: .word prefetch_abort
_data_abort: .word data_abort
_not_used: .word not_used
_irq: .word irq
_fiq: .word fiq
.balignl 16,0xdeadbeef
在第 1 行中 “.globl start”: 使用. globol 声明全局符号_start, 在 board/100ask24x0/u-boot.lds 中 ENTRY(_start) 这里用到。
其中符号保存的地址都在顶层目录 / system.map 中列出来了
在第 2 行中_start 之所以有 8 种不同的异常处理,是在 2440 芯片手册中已经规定好了的。
问题 1:后面的异常处理为什么用 ldr 不用 b 指令?
ldr 是绝对跳转,b 是相对跳转,它的地址与代码位置无关。复位异常在 CPU 运行前,并未初始化 SDRAM(故不能使用 0x3000 0000 以上的地址),在正常工作后也可能触发复位,这时由于 CPU 已经对 SDRAM、MMU(虚拟内存管理) 等初始化了,
此时的虚拟地址和物理地址完全不同,所以 reset 使用 b 指令相对跳转。
2. 后面的异常处理是怎么执行的?执行后异常处理又怎么退出的?
在 2440 芯片手册上给出, 例如当处理一个中断IRQ 异常时:
a. 保存当前 PC 现场到寄存器 R14,
b. 把当前程序状态寄存器 (CPSR) 保存到备份程序状态寄存器 (SPSR) 中. 从异常退出的时候,就可以由 SPSR 来恢复 CPSR。
c. 根据中断 IRQ 异常处理, 强制将 CPSR 模式位设为中断模式
d. 强制 PC 从相关异常向量处取下条指令。跳转到 0x18 实现中断异常处理.
当退出中断IRQ异常时:
a). 将中断 IRQ 所对应的是 R14_irq 寄存器并放入到 PC 中, 如下图, 中断 IRQ 所对应的是 R14_irq 寄存器,执行 MOVS R14_svc .
b). 复制 SPSR 的内容返回给 CPSR 中。
c). 如果在异常进入时置位了中断禁止标志位异常,清除中断禁止标志位
问题 3. 第 12 行中 .word: 类似于 (unsigend long)
以第 12 行中 _undefined_instruction: .word undefined_instruction 为例
_undefined_instruction 和_undefined_instruction 都是一个标号,
表示_undefined_instruction 指向一个 32 位 (4 字节) 地址,该地址用 undefined_instruction 符号变量代替。
用 C 语言表示就是:_undefined_instruction = &undefined_instruction
相当于 PC 从_undefined_instruction 取值时, 即 undefined_instruction 地址存到了 PC 中。
问题 4. 第 20 行中 .balignl 16,0xdeadbeef:
它的意思就是在以当前地址开始,在地址为 16 的倍数的指令位置的上一个指令填入为 0xdeadbeef 的内容。
此时当前地址刚好 0x3c=60, 由于 ARM 每个指令间隔 4 个字节, 且 64%16=0, 所以在 0x3c 中填入 0xdeadbeef。
它们的作用就是为内存做标记,插在那里,这个位置往前有特殊作用的内存,禁止访问。
2、设置管理模式、关看门狗、屏蔽中断
reset—->start.o
reset:
/* 设置CPSR程序程序状态寄存器为管理模式 */
mrs r0,cpsr //MRS读出CPSR寄存器值到R0
bic r0,r0,#0x1f //将R0低5位清空
orr r0,r0,#0xd3 //R0与b'110 10011按位或,禁止IRQ和FIQ中断,10011:复位需要设为管理模式(图1)
msr cpsr,r0 //MSR写入CPSR寄存器
/* 关看门狗 */
# define pWTCON 0x53000000 //(WitchDog Timer)看门狗定时器寄存器WTCON,设为0X0表示关闭看门狗
# define INTMOD 0X4A000004 //(Interrupt Mode)中断模式寄存器INTMOD,相应位=0:IRQ模式,相应位=1:IRQ模式,
# define INTMSK 0x4A000008 //(Interrupt Mask)中断屏蔽寄存器INTMSK,相应位=0:开启中断服务,相应位=1:关闭中断服务
# define INTSUBMSK 0x4A00001C //中断次级屏蔽寄存器,相应位=0:开启中断服务,相应位=1:关闭中断服务
# define CLKDIVN 0x4C000014 //时钟分频寄存器
#if defined(CONFIG_S3C2400) || defined(CONFIG_S3C2410) //宏定义CONFIG_S3C2410已定义
ldr r0, =pWTCON //R0等于WTCON地址
mov r1, #0x0 //R1=0x0
str r1, [r0] //关闭WTCON寄存器,pWTCON=0;
/* 关中断 */
mov r1, #0xffffffff //R1=0XFFFF FFFF
ldr r0, =INTMSK //R0等于INTMSK地址
str r1, [r0] //*0x4A000008=0XFFFF FFFF(关闭所有中断)
# if defined(CONFIG_S3C2410)
ldr r1, =0x3ff //R1=0x3FF
ldr r0, =INTSUBMSK //R0等于INTSUBMSK地址
str r1, [r0] //*0x4A00001C=0x3FF(关闭次级所有中断)
# endif
/*
判断系统是从nand启动的还是直接将程序下载到SDRAM中运行,
若系统从nand启动,这里得到r0和r1值是不一样的,r1=0x33f80000,
而r0=0x00000000。说明没初始化SDRAM,ne(no equal)标识符为真,所以bl cpu_init_crit执行跳转.
*/
adr r0, _start
ldr r1, _TEXT_BASE
cmp r0, r1
blne cpu_init_crit
CPU 复位后是从这里开始执行,这里初始化了:
1. 执行设置 CPSR 程序程序状态寄存器为管理模式
2. 关看门狗
3. 屏蔽中断
4. 进入 cpu_init_crit 函数关闭 MMU, 进入 lowlevel_init 初始化 13 个 BANK 寄存器来初始化 SDR
3、进入 cpu_init_crit 函数 (关闭 MMU)
cpu_init_crit:
mov r0, #0
mcr p15, 0, r0, c7, c7, 0 //关闭ICaches(指令缓存,关闭是为了降低MMU查表带来的开销)和DCaches(数据缓存,DCaches使用的是虚拟地址,开启MMU之前必须关闭)
mcr p15, 0, r0, c8, c7, 0 //使无效整个数据TLB和指令TLB(TLB就是负责将虚拟内存地址翻译成实际的物理内存地址)
mrc p15, 0, r0, c1, c0, 0
bic r0, r0, #0x00002300 @ clear bits 13, 9:8 (--V- --RS) //bit8:系统不保护,bit9:ROM不保护,bit13:设置正常异常模式0x0~0x1c,即异常模式基地址为0X0
bic r0, r0, #0x00000087 @ clear bits 7, 2:0 (B--- -CAM) //bit0~2:禁止MMU,禁止地址对齐检查,禁止数据Cache.bit7:设为小端模式
orr r0, r0, #0x00000002 @ set bit 2 (A) Align //bit2:开启数据Cache
orr r0, r0, #0x00001000 @ set bit 12 (I) I-Cache //bit12:开启指令Cache
mcr p15, 0, r0, c1, c0, 0
/*
mcr/mrc:
Caches:是一种高速缓存存储器,用于保存CPU频繁使用的数据。在使用Cache技术的处理器上,当一条指令要访问内存的数据时,
首先查询cache缓存中是否有数据以及数据是否过期,如果数据未过期则从cache读出数据。处理器会定期回写cache中的数据到内存。
根据程序的局部性原理,使用cache后可以大大加快处理器访问内存数据的速度。
其中DCaches和ICaches分别用来存放数据和执行这些数据的指令
TLB:就是负责将虚拟内存地址翻译成实际的物理内存地址,TLB中存放了一些页表文件,文件中记录了虚拟地址和物理地址的映射关系。
当应用程序访问一个虚拟地址的时候,会从TLB中查询出对应的物理地址,然后访问物理地址。TLB通常是一个分层结构,
使用与Cache类似的原理。处理器使用一定的算法把最常用的页表放在最先访问的层次。
这里禁用MMU,是方便后面直接使用物理地址来设置控制寄存器
*/
mov ip, lr //临时保存当前子程序返回地址,因为接下来执行bl会覆盖当前返回地址.
bl lowlevel_init //跳转到lowlevel_init(位于u-boot-1.1.6/board/100ask24x0/lowlevel_init.S)
mov lr, ip //恢复当前返回地址
mov pc, lr //退出
4、进入 lowlevel_init 函数 (初始化各个 bank 和 SDRAM)
lowlevel_init:
ldr r0, =SMRDATA //将SMRDATA的首地址(0x33F806C8)存到r0中
ldr r1, _TEXT_BASE //r1等于_TEXT_BASE内容,也就是TEXT_BASE(0x33F80000)
sub r0, r0, r1 //将0x33F806C8与0x33F80000相减,得到现在13个寄存器值在NOR Flash上存放的开始地址
ldr r1, =BWSCON //将BWSCON寄存器地址值存到r1中 (第一个存储器寄存器首地址)
add r2, r0, #13*4 //每个寄存器4字节,r2=r0+13*4=NOR Flash上13个寄存器值最后一个地址
0:
ldr r3, [r0], #4 //将r0的内容存到r3的内容中(r3等于SMRDATA里面值), 同时r0地址+=4;
str r3, [r1], #4 //将r3的内容存到r1所指的地址中(向寄存器地址里写入r3值),同时r1地址+=4;
cmp r2, r0 // 判断r2和r0
bne 0b //不等则跳转到第6行继续执行
mov pc, lr //跳回到返回地址中继续执行
SMRDATA:
.word (0+(B1_BWSCON<<4)+(B2_BWSCON<<8)+(B3_BWSCON<<12)+(B4_BWSCON<<16)+(B5_BWSCON<<20)+(B6_BWSCON<<24)+(B7_BWSCON<<28))
//设置每个BWSCON,注意BANK0由硬件连线决定了
.word ((B0_Tacs<<13)+(B0_Tcos<<11)+(B0_Tacc<<8)+(B0_Tcoh<<6)+(B0_Tah<<4)+(B0_Tacp<<2)+(B0_PMC))
.word ((B1_Tacs<<13)+(B1_Tcos<<11)+(B1_Tacc<<8)+(B1_Tcoh<<6)+(B1_Tah<<4)+(B1_Tacp<<2)+(B1_PMC))
.word ((B2_Tacs<<13)+(B2_Tcos<<11)+(B2_Tacc<<8)+(B2_Tcoh<<6)+(B2_Tah<<4)+(B2_Tacp<<2)+(B2_PMC))
.word ((B3_Tacs<<13)+(B3_Tcos<<11)+(B3_Tacc<<8)+(B3_Tcoh<<6)+(B3_Tah<<4)+(B3_Tacp<<2)+(B3_PMC))
.word ((B4_Tacs<<13)+(B4_Tcos<<11)+(B4_Tacc<<8)+(B4_Tcoh<<6)+(B4_Tah<<4)+(B4_Tacp<<2)+(B4_PMC))
.word ((B5_Tacs<<13)+(B5_Tcos<<11)+(B5_Tacc<<8)+(B5_Tcoh<<6)+(B5_Tah<<4)+(B5_Tacp<<2)+(B5_PMC))
//设置BANKCON0~BANKCON5
.word ((B6_MT<<15)+(B6_Trcd<<2)+(B6_SCAN))
.word ((B7_MT<<15)+(B7_Trcd<<2)+(B7_SCAN))
//设置BANKCON6~BANKCON7
.word ((REFEN<<23)+(TREFMD<<22)+(Trp<<20)+(Trc<<18)+(Tchr<<16)+REFCNT)
//设置REFRESH,在S3C2440中11~17位是保留的,也即(Tchr<<16)无意义
.word 0xb1 //设置BANKSIZE,对于容量可以设置大写,多出来的空内存会被自动检测出来
.word 0x30 //设置MRSRB6
.word 0x30 //设置MRSRB7
5、返回 start.s — 设置栈
stack_setup: //设置栈,方便调用C函数
ldr r0, _TEXT_BASE //代码段的初始地址:r0=0x33f80000
sub r0, r0, #CFG_MALLOC_LEN //留出一段内存以实现malloc:r0=0x33f50000
sub r0, r0, #CFG_GBL_DATA_SIZE //再留出一段存一些全局参数的变量:r0=0x33F4FF80
#ifdef CONFIG_USE_IRQ
sub r0, r0, #(CONFIG_STACKSIZE_IRQ+CONFIG_STACKSIZE_FIQ) //中断与快中断的栈:r0=0x33F4DF7C
#endif
sub sp, r0, #12 //留出12字节内存给abort异常 设置栈顶sp=r0-12;
#ifndef CONFIG_SKIP_LOWLEVEL_INIT
bl clock_init //进入clock_init函数
#endif
6、进入 clock_init 函数设置时钟
void clock_init(void)
{
S3C24X0_CLOCK_POWER *clk_power = (S3C24X0_CLOCK_POWER *)0x4C000000; //定义一个S3C24X0_CLOCK_POWER型结构体指针,clk_power->LOCKTIME=0x4C000000
if (isS3C2410) //isS3C2410为0,执行else
{... ...}
else
{
/* FCLK:HCLK:PCLK = 1:4:8 */
clk_power->CLKDIVN = S3C2440_CLKDIV; //S3C2440_CLKDIV=0X05
/* change to asynchronous bus mod */
__asm__( "mrc p15, 0, r1, c1, c0, 0\n" /* read ctrl register */
"orr r1, r1, #0xc0000000\n" //使其从快总线模式改变为异步总线模式,在2440手册上看到
"mcr p15, 0, r1, c1, c0, 0\n" /* write ctrl register */
:::"r1" //:::"r1" 向GCC声明:我对r1作了改动
);
/* to reduce PLL lock time, adjust the LOCKTIME register */
clk_power->LOCKTIME = 0xFFFFFFFF; //PLL 锁定时间计数寄存器
/* configure UPLL */
clk_power->UPLLCON = S3C2440_UPLL_48MHZ; //UCLK=48Mhz
/* some delay between MPLL and UPLL */
delay (4000); //等待UCLK时钟波形稳定
/* configure MPLL */
clk_power->MPLLCON = S3C2440_MPLL_400MHZ; //FCLK=400Mhz
/* some delay between MPLL and UPLL */
delay (8000); //等待FCLK时钟波形稳定
}
}
7、重定位、清 bss 段、跳转到 start_armboot 函数
relocate: /* 拷贝u-boot到SDRAM */
adr r0, _start //r0:当前代码开始地址
ldr r1, _TEXT_BASE //r1:代码段连接地址(0X3FF8 0000)
cmp r0, r1 //测试现在在FLASH中还是RAM中
beq clear_bss //若_start==_TEXT_BASE,表示已经进行代码从Flash拷贝SDRAM了(通常是调试时直接下载到RAM中)
ldr r2, _armboot_start //r2等于_armboot_start里的内容,也就是_start
ldr r3, _bss_start //r3等于_bss_start里的内容,(在连接脚本u-boot.lds中定义,是代码段的结束地址)
sub r2, r3, r2 //r2等于代码段长度
bl CopyCode2Ram // r0: source, r1: dest, r2: size 将从NOR FLASH上代码段(r0~r0+r2)拷贝到sdram地址(r3)0x3ff80000代码段地址上
clear_bss:
ldr r0, _bss_start //r0=__bss_start
ldr r1, _bss_end //r0等于_bss_end里的内容,也就是_end(在u-boot.lds里定义,是存bss的结束地址)
mov r2, #0x00000000 //r2=0;用来清bss所有段
clbss_l:
str r2, [r0] //*r0=0;
add r0, r0, #4 //r0+=4;
cmp r0, r1
ble clbss_l //小于等于一直执行clbss_l
ldr pc, _start_armboot //pc等于_start_armboot里的内容,也就是跳转到start_armboot函数
_start_armboot: .word start_armboot *(_start_armboot)=start_armboot
小结:
uboot - 第一阶段硬件初始化主要实现了:
- 执行设置 CPSR 程序程序状态寄存器为管理模式
- 关看门狗
- 屏蔽中断
- 关闭 MMU, 初始化 SDRAM
- 设置栈
- 时钟设置
- 重定位 (代码从 Flash 拷贝至 SDRAM 中)
- 清 bss 段 (未初始的全局 / 静态变量)
- 跳转到 start_armboot 函数 (位于 u-boot-1.1.6/lib_arm/borad.c, 用来实现第 2 阶段硬件相关的初始化)
接下来开始分析 uboot - 第二阶段硬件初始化。
五、源码分析(第二阶段)
第二阶段的功能:
初始化本阶段所需的硬件设备(主要设置系统时钟、初始化串口、Flash、网卡、USB)
检测系统内存映射(memory map)
将内核映像和根文件系统映象从 Flash 上读到 RAM 空间中
为内核设置启动参数
调用内核
从 start_armboot 开始,程序流程如图
六、附录
内容一的举例:
比如 common/cmd_nand.c 文件提供了操作 NAND Flash 的各种命令,这些命令调用 drivers/nand/nand_base.c 中的擦除、读写函数来实现;而这些函数是针对 NAND Flash 的共性做的封装,与平台 / 开发板相关的代码用宏或外部函数代替;平台相关则在 cpu/xxx,开发板相关则在 board/xxx。
以增加 yaffs 文件系统映像功能为例,先在 common 下的 cmd_nand.c 增加命令,比如 nand write.yaffs,这个命令调用 / drivers/nand/nand_util.c 中的函数,而这些函数依赖于 drivers/nand/nand_base.c、cpu/arm920t/s3c24x0/nand_flash.c 文件中的相关函数。
内容二的解释:
所谓检测内存映射,就是确定板上使用了多少内存、他们的地址空间是什么。由于嵌入式开发中的 Bootloader 多是针对某类板子进行编写,所以可以根据板子的情况直接设置,不需要考虑可以适用于各类情况的复杂算法。
Flash 上的内核映像有可能是经过压缩的,在读到 RAM 之后,还需要进行解压。当然,对于有自解压功能的内核,不需要 Bootloader 来解压。
将根文件系统映像复制到 RAM 中并不是必须的,这取决于是什么类型的根文件系统,以及内核访问它的方法。
将内核放在适当的位置后,在跳入执行内核之前,需要根据内核启动的需求,配置相应的启动参数。
调用内核的函数是什么还没找到,待会再找