关于ARM的一些基本概念,大家可以参考我之前的文章:
《嵌入式工程师到底要不要学习ARM汇编指令?》
《到底什么是Cortex、ARMv8、arm架构、ARM指令集、soc?一文帮你梳理基础概念【科普】》
关于ARM指令用到的IDE开发环境可以参考下面这篇文章
《1. 从0开始学ARM-安装Keil MDK uVision集成开发环境》
《2. 从0开始学ARM-CPU原理,基于ARM的SOC讲解》
有了计算机硬件架构的原理,下面我就可以学习ARM模式、寄存器、流水线等基础知识。
一、ARM技术特征
ARM的成功,一方面得益于它独特的公司运作模式,另一方面,当然来自于ARM处理器自身的优良性能。作为一种先进的RISC处理器,ARM处理器有如下特点。
体积小、低功耗、低成本、高性能。支持Thumb(16位)/ARM(32位)双指令集,能很好地兼容8位/16位器件。大量使用寄存器,指令执行速度更快。大多数数据操作都在寄存器中完成。寻址方式灵活简单,执行效率高。指令长度固定。二、ARM的基本数据类型
ARM采用的是32位架构,ARM的基本数据类型有以下3种。
Byte:字节,8bit。Halfword:半字,16bit(半字必须与2字节边界对齐)。Word:字,32bit(字必须与4字节边界对齐)。 存储器可以看做是序号为0~2^32^-1的线性字节阵列。每一个字节都有唯一的地址。
注意:
ARM系统结构v4以上版本支持以上3种数据类型,v4以前版本仅支持字节和字。当将这些数据类型中的任意一种声明成unsigned类型时,n位数据值表示范围为0~2^n^-1的非负数,通常使用二进制格式。当将这些数据类型的任意一种声明成signed类型时,n位数据值表示范围为-2^n-1^~2^n-1^-1的整数,使用二进制的补码格式。所有数据类型指令的操作数都是字类型的,如“ADD r1,r0,#0x1”中的操作数“0x1”就是以字类型数据处理的。Load/Store 数据传输指令可以从存储器存取传输数据,这些数据可以是字节、半字、字。加载时自动进行字节或半字的零扩展或符号扩展。对应的指令分别为LDR/BSTRB(字节操作)、LDRH/STRH(半字操作)、LDR/STR(字操作)。ARM指令编译后是4个字节(与字边界对齐);Thumb指令编译后是2个字节(与半字边界对齐)。三、ARM处理器工作模式
Cortex系列之前的ARM处理器工作模式一共有7种。
1. 工作模式
Cortex系列的ARM处理器工作模式有8种,多了1个monitor模式,如下图所示:
ARM处理器工作模式
ARM之所以设计出这么多种模式出来,就是为了「应对CPU在运行时各种突发事件」,比如要支持正常的应用程序的运行,在运行任何一个时间点又可能发生很多异常事件,比如:关机、收到网卡信息、除数为0、访问非法内存、解析到了非法指令等等,不光要能处理这些异常还要能够从异常中再返回到原来的程序继续执行。
用户模式: 用户模式是用户程序的工作模式,它运行在操作系统的用户态,它没有权限去操作其它硬件资源,只能执行处理自己的数据,也不能切换到其它模式下,要想访问硬件资源或切换到其它模式只能通过软中断或产生异常。系统模式: 系统模式是特权模式,不受用户模式的限制。用户模式和系统模式共用一套寄存器,操作系统在该模式下可以方便的访问用户模式的寄存器,而且操作系统的一些特权任务可以使用这个模式访问一些受控的资源。一般中断模式: 一般中断模式也叫普通中断模式,用于处理一般的中断请求,通常在硬件产生中断信号之后自动进入该模式,该模式为特权模式,可以自由访问系统硬件资源。快速中断模式: 快速中断模式是相对一般中断模式而言的,它是用来处理对时间要求比较紧急的中断请求,主要用于高速数据传输及通道处理中。管理模式: 管理模式是「CPU上电后默认模式」,因此在该模式下主要用来做系统的初始化,软中断处理也在该模式下,当用户模式下的用户程序请求使用硬件资源时通过软件中断进入该模式。终止模式: 中止模式用于支持虚拟内存或存储器保护,当用户程序访问非法地址,没有权限读取的内存地址时,会进入该模式,linux下编程时经常出现的segment fault通常都是在该模式下抛出返回的。未定义模式: 未定义模式用于支持硬件协处理器的软件仿真,CPU在指令的译码阶段不能识别该指令操作时,会进入未定义模式。Monitor: 是为了安全而扩展出的用于执行安全监控代码的模式;也是一种特权模式
除用户模式以外,其余的所有6种模式称之为非用户模式,或特权模式(Privileged Modes);其中除去用户模式和系统模式以外的5种又称为异常模式(ExceptionModes),常用于处理中断或异常,以及需要访问受保护的系统资源等情况。
2. 模式切换
ARM微处理器的运行模式可以通过软件改变,也可以通过外部中断或异常处理改变。应用程序运行在用户模式下,当处理器运行在用户模式下时,某些被保护的系统资源是不能被访问的。
3. 异常(Exception)
指由处理器执行指令导致原来运行程序的中止,异常与指令运行相关,是CPU执行程序产生的,是同步的,可分为精确异常和非精确异常。异常处理遵守严格的程序顺序,不能嵌套,只有当第一个异常处理完并返回后才能处理后续的异常。
4. 异常源
要进入异常模式,一定要有异常源,ARM规定有7种异常源:
异常源 描述 Reset 上电时执行 Undef 当流水线中的某个非法指令到达执行状态时执行 SWI 当一个软中断指令被执行完的时候执行 Prefetch 当一个指令被从内存中预取时,由于某种原因而失败,如果它能到达执行状态这个异常才会产生 Data 如果一个预取指令试图存取一个非法的内存单元,这时异常产生 IRQ 通常的中断 FIQ 快速中断
5. 异常源于模式关系重启异常进入管理模式;快速中断请求异常进入快中断模式,支持高速数传输及通道处理(FIQ异常响应时进入此模式);中断请求异常进入中断模式,用于通用中断处理,(IRQ异常响应时进入此模式);预取指中止,数据中止异常进入中止模式,用于支持虚拟内存和/或存储器保护;未定义指令异常进入未定义模式,支持硬件协处理器的软件仿真(未定义指令异常响应时进入此模式) ;软件中断,复位异常进入管理模式,操作系统保护代码(系统复位和软件中断响应时进入此模式) ;
异常发生之后,CPU必须要立刻做出响应,关于异常后面会详细讲解。
四、ARM寄存器
Cortex A系列ARM处理器共有40个32位寄存器,其中33个为通用寄存器,7个为状态寄存器。usr模式和sys模式共用同一组寄存器。
ARM体系结构允许通过增加协处理器来扩展指令集。最常用的协处理器是用于控制片上功能的系统协处理器。
例如,控制Cache和存储管理单元MMU的CP15协处理器、设置异常向量表地址的mcr指令。
ARM支持16个协处理器,在程序执行过程中,每个协处理器忽略属于ARM处理器和其他协处理器指令,当一个协处理器硬件不能执行属于她的协处理器指令时,就会产生一个未定义的异常中断,在异常中断处理程序中,可以通过软件模拟该硬件的操作,比如,如果系统不包含向量浮点运算器,则可以选择浮点运算软件模拟包来支持向量浮点运算。
ARM协处理器指令包括如下三类:
用于ARM处理器初始化ARM协处理器的数据操作用于ARM处理器的寄存器和ARM协处理器的寄存器间的数据传送操作用于在ARM协处理器的寄存器和内存单元之间传送数据
这些指令包括如下5条:
CDP协处理器数据操作指令LDC协处理器数据读入指令STC协处理器数据写入指令MCR ARM寄存器到协处理器寄存器的数据传送指令MRC 协处理器寄存器到ARM寄存器的数据传送指令
关于协处理器指令,我们只需要知道几个常用的即可,后面文章会提到。
六、Jazelle
Jazelle
Jazelle杰则来 或者说Java字节码状态是为了运行Java虚拟机而添加的一种状态。
ARM的Jazelle技术在硬件上提供了对Java字节码的支持,大大提高了系统的性能。
由于ARM 架构是32-bits,16-bits = “halfword” , “word” = 32-bits。
Java 字节码 8-bits 独立架构的指令集。Jazelle 用硬件执行大多数的字节码(另一些使用高度优化了的ARM 代码)。这是由于折衷了硬件复杂度(功耗 & 硅片面积)和速度。
七、指令流水线
流水线技术通过多个功能部件并行工作来缩短程序执行时间,提高处理器核的效率和吞吐率,从而成为微处理器设计中最为重要的技术之一。
1. 3级流水线
到ARM7为止的ARM处理器使用简单的3级流水线,它包括下列流水线级。 (1)取指令 从寄存器装载一条指令。 (2)译码(decode) 识别被执行的指令,并为下一个周期准备数据通路的控制信号。在这一级,指令占有译码逻辑,不占用数据通路。 (3)执行 处理指令并将结果写回寄存器。
指令的执行
当处理器执行简单的数据处理指令时,流水线使得平均每个时钟周期能完成1条指令。但一条指令需要3个时钟周期来完成,因此有3个时钟周期的延时,但吞吐率是每个周期一条指令。
对于3级流水线,PC寄存器里的值并不是正在执行的指令的地址,而是预取指令的地址,这个知识点很重要,后面我们会详细的举例来证明。
处理器要满足高性能的要求,为了满足这个要求,需要重新考虑处理器的组织结构。 提高性能的方法主要有两种方法:
提高时钟频率。时钟频率的提高,必然引起指令执行周期的缩短,所以要求简化流水线每一级的逻辑,流水线的级数都要增加。减少每条指令的平均指令周期数CPI。这就要求重新考虑3级流水线ARM中多余1个流水线周期的实现方法,以便使其占有较少的周期,或者减少因指令相关造成的流水线停顿,也可以将两者结合起来。
较高性能的ARM核使用了5级流水线,而且具有分开的指令和数据存储器。 在Cortex-A8中有一条13级的流水线,但是ARM公司没有对其中的技术公开任何相关的细节。
从经典ARM系列到现在Cortex系列,ARM处理器的结构在向复杂的阶段发展,但没改变的是CPU的取址指令和地址关系,「不管是几级流水线,都可以按照最初的3级流水线的操作特性来判断其当前的PC位置」。
2. 流水线举例
为方便理解,下面我们以3级流水线为例,
1)最佳流水线
最佳流水线
这是一个理想的实例,所有的指令都在寄存器中执行,且处理器完全不必离开芯片本身。每个周期,都有一条指令被执行,流水线的容量得到了充分的发挥。 指令周期数 (CPI) = 1
2)LDR流水线
LDR流水线
该例中,用6周期执行了4条指令 指令周期数 (CPI) = 1.5
与最佳流水线不同,装载(LDR) 操作将数据移进片内导致了指令/数据总线被占用,因此随后紧跟了内部的写周期( writeback)以完成将数据写回寄存器。
数据总线在周期1, 2, 3 被使用,周期6是取指,周期4用于数据装载,而周期5是一个内部周期用来完成载入的数据写回到寄存器中。周期3为执行周期:产生地址周期4为数据周期:从存储器中取数据(数据只有在周期4的末尾出现在内核中)周期5写回周期:通过数据通道中的B总线和ALU将数据写回到寄存器bank 中周期6的执行被推迟了,直到周期5写回完成(使用ALU )。同样内部周期是不需要等待状体的,但读写存储器时可能需要。3)分支流水线
BL指令用于实现指令流的跳转,并存储返回地址到寄存器R14(LR)中。
分支流水线
分支指令在其第一周期计算分支的目的地,同时在现行PC处完成一次指令预取,流水线被阻断。这种预取在任何情况下都要做的,因为当判决地址产生时已来不及停止预取。第二个周期在分支的目标地址完成取指,而返回地址则存于R14如果link位已设置。第三周期完成目标地址 4的取指,重新填满流水线,并且如果跳转是带链接的还要修改R14(减去4)以便简单地返回。分支需要三个时钟周期来执行BL,随后会涉及调整阶段。4)中断流水线
中断流水线
「IRQ 中断的反应时间最小=7周期」
周期1: 内核被告知有中断 IRQ在现行指令执行完之前不会被响应( MUL and LDM/STM 指令会有长的延迟) 解码阶段:中断被解码(中断已使能,设置了相应标志位… )。如果中断被使能和服务,正常的指令将不会被解码。周期 2: 此时总是进入ARM状态. 执行中断 ( 获取IR向量的地址), 保存 CPSR 于 SPSR, 改变CPSR模式为 IRQ 模式并禁止进一步的 IRQ 中断输入。周期 3: 保存 PC (0x800C) 于 r14_irq, 从IRQ异常处理向量处取指周期 4: 解码向量表中的指令; 调整r14irq 为0x8008周期 4和 5: 无有用的指令取指, 由于周期 6的跳转周期 6: 取异常处理子程序的第一条指令; 从子程序返回: SUBS pc,lr,#4
这将恢复工作模式并从响应中断前的下一条指令处取指,如果有多个中断,需堆栈保存返回地址。 注意最大的FIQ响应延迟为 29个周期(而非Thumb状态的28周期!)。