进程

进程的概念

进程的定义

程序:就是一个指令序列。

程序段、数据段、PCB三部分组成了进程实体(进程映像)。一般情况下,我们把进程实体就简称为进程,例如,所谓创建进程,实质上是创建进程实体中的PCB;而撤销进程,实质上是撤销进程实体中的PCB。

PCB是进程存在的唯一标志 !

从不同的角度,进程可以有不同的定义,比较传统典型的定义有:

1.进程是程序的一次执行过程。

2.进程是一个程序及其数据在处理机上顺序执行时所发生的活动。

3.进程是具有独立功能的程序在数据集合上运行的过程,它是系统进行资源分配和调度的一个独立单位。(强调进程的动态性

进程是进程实体的运行过程,是系统进行资源分配和调度的一个独立单位

注:严格来说,进程实体和进程并不一样,进程实体是静态的,进程则是动态的

进程的组成

进程(进程实体)由程序段、数据段、PCB三 部分组成。

进程和线程 - 图1

程序段和数据段

进程的管理者(操作系统)所需的数据都在PCB中

程序本身的运行所需的数据存放在程序段和数据段中

进程和线程 - 图2

PCB

进程和线程 - 图3

此外PCB还有一种分解方式(大同小异)

进程和线程 - 图4

进程的组织

在一个系统中,通常有数十、数百乃至数千个PCB。为了能对他们加以有效的管理,应该用适当的方式把这些PCB组织起来。

注:进程的组成讨论的是一个进程内部由哪些部分构成的问题,而进程的组织讨论的是多个进程之间的组织方式问题。

进程和线程 - 图5

链接方式

进程和线程 - 图6

索引方式

进程和线程 - 图7

进程的特征

进程和线程 - 图8

总结

进程和线程 - 图9

进程状态及转换

三种基本状态

进程是程序的一次执行。在这个执行过程中,有时进程正在被CPU处理,有时又需要等待CPU服务,可见,进程的状态是会有各种变化。为了方便对各个进程的管理,操作系统需要将进程合理地划分为几种状态。

进程和线程 - 图10

注意:单核处理机环境下,每时刻最多只有一个进程处于运行态。(双核环境下可以同时有两个进程处于运行态)

进程已经拥有了除处理机之外所有需要的资源,一旦获得处理机,即可立即进入运行态开始运行。即:万事俱备,只欠CPU

如:等待操作系统分配打印机、等待读磁盘操作的结果。CPU是计算机中最昂贵的部件,为了提高CPU的利用率,需要先将其他进程需要的资源分配到位,才能得到CPU的服务。

另外两种状态

操作系统需要完成创建进程。操作系统为该进程分配所需的内存空间等系统资源,并为其创建、初始化PCB (如:为进程分配PID)

进程运行结束(或者由于bug导致进程无法继续执行下去,比如数组越界错误),需要撤销进程。

操作系统需要完成撤销进程相关的工作。完成将分配给进程的资源回收,撤销进程PCB等工作。

进程和线程 - 图11

进程状态的转化

进程和线程 - 图12

注意:

  • 阻塞态不能直接转化为运行态。
  • 就绪态也不能直接转化为阻塞态。

总结

进程和线程 - 图13

进程控制

进程控制的主要功能是对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。
简化理解:反正进程控制就是要实现进程状态转换

进程和线程 - 图14

如何实现进程控制?

进程控制图

进程和线程 - 图15

原语实现。

原语是一种特殊的程序,它的执行具有原子性。也就是说,这段程序的运行必须一气呵成,不可中断。

为何进程控制(状态转换)的过程要“一气呵成”?

如果不能“一气呵成”,就有可能导致操作系\统中的某些关键数据结构信息不统一的情况,这会影响操作系统进行别的管理工作。

如何实现原语的“原子性”?

原语的执行具有原子性,即执行过程只能一气呵成,期间不允许被中断。

可以用“关中断指令”和“开中断指令”这两个特权指令实现原子性

进程和线程 - 图16

正常情况:CPU每执行完一条指令都会例行检查是否有中断信号需要处理,如果有,则暂停运行当前这段程序,转而执行相应的中断处理程序。

CPU执行了关中断指令之后,就不再例行检查中断信号,直到执行开中断指令之后才会恢复检查。这样,关中断、开中断之间的这些指令序列就是不可被中断的,这就实现了“原子性”。

且原语必须在核心态下执行。

进程控制相关的原语

无论什么原语,无非都是做这三件事:

  • 更新PCB中的信息(如修改进程状态标志、将运行环境保存到PCB、从PCB恢复运行环境)
    • 所有的进程控制原语一定都会修改进程状态标志
    • 剥夺当前运行进程的CPU使用权必然需要保存其运行环境
    • 某进程开始运行前必然要恢复期运行环境
  • 将PCB插入合适的队列
  • 分配/回收资源

创建原语

进程和线程 - 图17

撤消原语

进程和线程 - 图18

阻塞唤醒

进程和线程 - 图19

进程切换

进程和线程 - 图20

进程通信

什么是进程通信?

顾名思义,进程通信就是指进程之间的信息交换。

进程是分配系统资源的单位(包括内存地址空间),因此各进程拥有的内存地址空间相互独立。

进程和线程 - 图21

为了保证安全,一个进程不能直接访问另一个进程的地址空间

但是进程之间的信息交换又是必须实现的。为了保证进程间的安全通信,操作系统提供了一些方法。

共享存储

进程和线程 - 图22

基于数据结构的共享:比如共享空间里只能放一个长度为10的数组。这种共享方式速度慢、限制多,是一种低级通信方式。

基于存储区的共享:在内存中画出一块共享存储区,数据的形式、存放位置都由进程控制,而不是操作系统。相比之下,这种共享方式速度更快,是一种高级通信方式

管道通信

“管道”是指用于连接读写进程的一个共享文件,又名pipe文件。其实就是在内存中开辟一个大小固定的缓冲区

进程和线程 - 图23

  • 管道只能采用半双工通信,某一时间段内只能实现单向的传输。如果要实现双向同时通信,则需要设置两个管道。
  • 各进程要互斥地访问管道。
  • 数据以字符流的形式写入管道,当管道写满时,写进程的write() 系统调用将被阻塞,等待读进程将数据取走。当读进程将数据全部取走后,管道变空,此时读进程的read() 系统调用将被阻塞。(缓冲区的特性)
  • 如果没写满,就不允许读。如果没读空,就不允许写。(缓冲区的特性)
  • 数据一旦被读出,就从管道中被抛弃,这就意味着读进程最多只能有一个,否则可能会有读错数据的情况。

消息传递

进程间的数据交换以格式化的消息(Message)为单位。进程通过操作系统提供的“发送消息 / 接收消息”两个原语进行数据交换。

进程和线程 - 图24

  • 直接消息传递:消息直接挂到接收进程的消息缓冲队列上。
  • 间接消息传递:消息要先发送到中间实体(信箱)中,因此也称“信箱通信方式”。Eg:计网中的电子邮件系统。

总结

进程和线程 - 图25

线程

线程的概念

什么是线程,为什么要引入线程?

进程是程序的一次执行。这些功能显然需要用不同的几段程序才能实现,并且这几段程序还要并发运行。

进程和线程 - 图26

当切换进程时,需要保存 / 恢复进程运行环境,还需要切换内存地址空间(更新快表、更新缓存)开销很大

进程和线程 - 图27

引入线程后,线程是CPU调度的基本单位。

线程的优点和特性

  • 进程间并发,开销很大
  • 当切换进程时,需要保存 / 恢复进程运行环境,还需要切换内存地址空间(更新快表、更新缓存)
  • 线程间并发,开销更小
  • 同一进程内的各个线程间并发,不需要切换进程运行环境和内存地址空间,省时省力

引入线程机制后,并发带来的系统开销降低,系统并发性提升

注意:从属于不同进程的线程间通信,也必须请求操作系统服务!

  • 引入线程前,进程既是资源分配的基本单位,也是调度的基本单位。
  • 引入线程后,进程是资源分配的基本单位,线程是调度的基本单位。线程也有运行态、就绪态、阻塞态。
  • 在多CPU环境下,各个线程也可以分派到不同的CPU上并行地执行。
  • 线程几乎不拥有资源,只拥有极少量的资源(线程控制块TCB、寄存器信息、堆栈等)

总结

进程和线程 - 图28

线程的实现方式多线程模型

线程的实现方式

用户级

历史背景:早期的操作系统(如:早期Unix)只支持进程,不支持线程。当时的“线程”是由线程库实现的。

进程和线程 - 图29

用户级线程由应用程序通过线程库实现,所有的线程管理工作都由应用程序负责(包括线程切换)

用户级线程中,线程切换可以在用户态下即可完成,无需操作系统干预。

在用户看来,是有多个线程。但是在操作系统内核看来,并意识不到线程的存在。“用户级线程”就是“从用户视角看能看到的线程”

优缺点

  • 优点:用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统
    开销小,效率高
  • 缺点:当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可在多核处理机上并行运行。

内核级

内核级线程(Kernel-Level Thread, KLT, 又称“内核支持的线程”) 由操作系统支持的线程。

进程和线程 - 图30

内核级线程的管理工作由操作系统内核完成。

线程调度、切换等工作都由内核负责,因此内核级线程的切换必然需要在核心态下才能完成。

操作系统会为每个内核级线程建立相应的TCB(Thread Control Block,线程控制块),通过TCB对线程进行管理。“内核级线程”就是“从操作系统内核视角看能看到的线程”。

优缺点

  • 优点:当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行。
  • 缺点:一个用户进程会占用多个内核级线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大。

多线程模型

在支持内核级线程的系统中,根据用户级线程和内核级线程的映射关系,可以划分为几种多线程模型

一对一

一对一模型:一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程。

进程和线程 - 图31

  • 优点:当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行。
  • 缺点:一个用户进程会占用多个内核级线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大。

多对一

多对一模型:多个用户级线程映射到一个内核级线程。且一个进程只被分配一个内核级线程。

进程和线程 - 图32

  • 优点:用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高
  • 缺点:当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可在多核处理机上并行运行

多对多

多对多模型:n 用户及线程映射到m 个内核级线程(n >= m)。每个用户进程对应 m 个内核级线程。

克服了多对一模型并发度不高的缺点(一个阻塞全体阻塞),又克服了一对一模型中一个用户进程占用太多内核级线程,开销太大的缺点。

进程和线程 - 图33

内核级线程中可以运行任意一个有映射关系的用户级线程代码,只有两个内核级线程中正在运行的代码逻辑都阻塞时,这个进程才会阻塞

小结

进程和线程 - 图34

处理机的调度

处理机调度概念、层次

调度的基本概念

进程和线程 - 图35

当有一堆任务要处理,但由于资源有限,这些事情没法同时处理。这就需要确定某种规则来决定处理这些任务的顺序,这就是“调度”研究的问题。

在多道程序系统中,进程的数量往往是多于处理机的个数的,这样不可能同时并行地处理各个进程。处理机调度,就是从就绪队列中按照一定的算法选择一个进程并将处理机分配给它运行,以实现进程的并发执行。

调度的三个层次

高级调度

进程和线程 - 图36

由于内存空间有限,有时无法将用户提交的作业全部放入内存,因此就需要确定某种规则来决定将作业调入内存的顺序。

高级调度(作业调度)。按一定的原则从外存上处于后备队列的作业中挑选一个(或多个)作业,给他们分配内存等必要资源,并建立相应的进程(建立PCB),以使它(们)获得竞争处理机的权利。

高级调度是辅存(外存)与内存之间的调度。每个作业只调入一次,调出一次。作业调入时会建立相应的PCB,作业调出时才撤销PCB。高级调度主要是指调入的问题,因为只有调入的时机需要操作系统来确定,但调出的时机必然是作业运行结束才调出。

中级调度

进程和线程 - 图37

引入了虚拟存储技术之后,可将暂时不能运行的进程调至外存等待。等它重新具备了运行条件且内存又稍有空闲时,再重新调入内存。

这么做的目的是为了提高内存利用率和系统吞吐量。

暂时调到外存等待的进程状态为挂起状态。值得注意的是,PCB并不会一起调到外存,而是会常驻内存。PCB中会记录进程数据在外存中的存放位置,进程状态等信息,操作系统通过内存中的PCB来保持对各个进程的监控、管理。被挂起的进程PCB会被放到的挂起队列中。

中级调度(内存调度),就是要决定将哪个处于挂起状态的进程重新调入内存。

一个进程可能会被多次调出、调入内存,因此中级调度发生的频率要比高级调度更高。

补充知识:进程的挂起态与七状态模型

暂时调到外存等待的进程状态为挂起状态(挂起态,suspend)

挂起态又可以进一步细分为就绪挂起、阻塞挂起两种状态

五状态模型 ——-> 七状态模型

进程和线程 - 图38

注意“挂起”和“阻塞”的区别,两种就绪挂起 状态都是暂时不能获得CPU的服务,但挂起态是将进程映像调到外存去了,而阻塞态下进程映像还在内存中。

有的操作系统会把就绪挂起、阻塞挂起分为两个挂起队列,甚至会根据阻塞原因不同再把阻塞挂起进程进一步细分为阻塞挂起多个队列。

低级调度

进程和线程 - 图39

低级调度(进程调度),其主要任务是按照某种方法和策略从就绪队列中选取一个进程,将处理机分配给它。

进程调度是操作系统中最基本的一种调度,在一般的操作系统中都必须配置进程调度。

进程调度的频率很高,一般几十毫秒一次。

总结

进程和线程 - 图40

总结

进程和线程 - 图41

进程调度的时机切换与过程调度方式

进程调度的时机

进程调度(低级调度),就是按照某种算法从就绪队列中选择一个进程为其分配处理机。

进程和线程 - 图42

临界资源:一个时间段内只允许一个进程使用的资源。各进程需要互斥地访问临界资源。

临界区:访问临界资源的那段代码。

内核程序临界区一般是用来访问某种内核数据结构的,比如进程的就绪队列(由各就绪进程的PCB组成)

有的系统中,只允许进程主动放弃处理机有的系统中,进程可以主动放弃处理机,当有更紧急的任务需要处理时,也会强行剥夺处理机(被动放弃)

进程在普通临界区中是可以进行调度、切换的。

进程和线程 - 图43

进程调度的方式

非剥夺调度方式,又称非抢占方式。即,只允许进程主动放弃处理机。在运行过程中即便有更紧迫的任务到达,当前进程依然会继续使用处理机,直到该进程终止或主动要求进入阻塞态。

实现简单,系统开销小但是无法及时处理紧急任务,适合于早期的批处理系统

剥夺调度方式,又称抢占方式。当一个进程正在处理机上执行时,如果有一个更重要或更紧迫的进程需要使用处理机,则立即暂停正在执行的进程,将处理机分配给更重要紧迫的那个进程。

可以优先处理更紧急的进程,也可实现让各进程按时间片轮流执行的功能(通过时钟中断)。适合于分时操作系统、实时操作系统

进程的切换与过程

“狭义的进程调度”与“进程切换”的区别:

狭义的进程调度指的是从就绪队列中选中一个要运行的进程。(这个进程可以是刚刚被暂停执行的进程,也可能是另一个进程,后一种情况就需要进程切换)

进程切换是指一个进程让出处理机,由另一个进程占用处理机的过程。

过程

广义的进程调度包含了选择一个进程和进程切换两个步骤。

进程切换的过程主要完成了:

  1. 对原来运行进程各种数据的保存
  2. 对新的进程各种数据的恢复(如:程序计数器、程序状态字、各种数据寄存器等处理机现场信息,这些信息一般保存在进程控制块)

注意:进程切换是有代价的,因此如果过于频繁的进行进程调度、切换,必然会使整个系统的效率降低,使系统大部分时间都花在了进程切换上,而真正用于执行进程的时间减少。

总结

进程和线程 - 图44

调度算法的评价指标

CPU利用率

由于早期的CPU造价极其昂贵,因此人们会希望让CPU尽可能多地工作

CPU利用率:指CPU “忙碌”的时间占总时间的比例。

进程和线程 - 图45

系统吞吐量

对于计算机来说,希望能用尽可能少的时间处理完尽可能多的作业

系统吞吐量:单位时间内完成作业的数量

  • 系 统 吞 吐 量 = 总 共 完 成 了 多 少 道 作 业 / 总 共 花 了 多 少 时 间

Eg:某计算机系统处理完10道作业,共花费100秒,则系统吞吐量为?10/100 = 0.1 道 / 秒

周转时间

对于计算机的用户来说,他很关心自己的作业从提交到完成花了多少时间。

周转时间,是指从作业被提交给系统开始,到作业完成为止的这段时间间隔。

它包括四个部分:

  • 作业在外存后备队列上等待作业调度(高级调度)的时间
  • 进程在就绪队列上等待进程调度(低级调度)的时间
  • 进程在CPU上执行的时间
  • 进程等待I/O操作完成的时间

后三项在一个作业的整个处理过程中,可能发生多次,对于用户来说,更关心自己的单个作业的周转时间

  • (作业)周转时间=作业完成时间–作业提交时间

对于操作系统来说,更关心系统的整体表现, 因此更关心所有作业周转时间的平均值

  • 平均周转时间=各作业周转时间之和/作业数

带权周转时间

  • 带权周转时间=作业周转时间/作业实际运行的时间=(作业完成时间–作业提交时间)/作业实际运行的时间

平均带权周转时间

  • 平均带权周转时间=各作业带权周转时间之和/作业数

等待时间

计算机的用户希望自己的作业尽可能少的等待处理机

等待时间,指进程 / 作业处于等待处理机状态时间之和,等待时间越长,用户满意度越低。

进程和线程 - 图46

对于进程来说,等待时间就是指进程建立后等待被服务的时间之和,在等待I/O完成的期间其实进程也是在被服务的,所以不计入等待时间。

对于作业来说,不仅要考虑建立进程后的等待时间,还要加上作业在外存后备队列中等待的时间。

一个作业总共需要被CPU服务多久,被I/O设备服务多久一般是确定不变的,因此调度算法其实只会影响作业 / 进程的等待时间。当然,与前面指标类似,也有“平均等待时间”来评价整体性能。

响应时间

对于计算机用户来说,会希望自己的提交的请求(比如通过键盘输入了一个调试命令)尽早地开始被系统服务、回应。

响应时间,指从用户提交请求到首次产生响应所用的时间。

总结

进程和线程 - 图47

调度算法

FCFS、SJF、HRRN调度算法

先来先服务(FCFS, First Come First Serve)

算法思想:按照作业 / 进程到达的先后顺序进行服务。

用于作业 / 进程调度: 用于作业调度时,考虑的是哪个作业先到达后备队列;用于进程调度时,考虑的是哪个进程先到达就绪队列。

非抢占式的算法

  • 优点:公平、算法实现简单
  • 缺点:排在长作业(进程)后面的短作业需要等待很长时间,带权周转时间很大,对短作业来说用户体验不好。即,FCFS算法对长作业有利,对短作业不利(Eg :排队买奶茶…)

进程和线程 - 图48

短作业优先(SJF, Shortest Job First)

算法思想:追求最少的平均等待时间,最少的平均周转时间、最少的平均平均带权周转时间。

算法规则: 最短的作业 / 进程优先得到服务(所谓“最短”,是指要求服务时间最短)。

即可用于作业调度,也可用于进程调度。用于进程调度时称为“短进程优先(SPF, Shortest Process First)算法”。

进程和线程 - 图49

SJF和SPF是非抢占式的算法。但是也有抢占式的版本——最短剩余时间优先算法(SRTN, Shortest Remaining Time Next)。

最短剩余时间优先算法

也就是短作业优先的抢占式算法,几个评判指标又要更低。

进程和线程 - 图50

注意细节:

进程和线程 - 图51

高响应比优先(HRRN)

进程和线程 - 图52

进程和线程 - 图53

总结

进程和线程 - 图54

时间片轮转、优先级、多级反馈队列

时间片轮转调度算法

进程和线程 - 图55

时间片轮转调度算法主要适用于分时系统。在这种算法中,系统将所有就绪进程按到达时间的先后次序排成一个队列,进程调度程序总是选择就绪队列中第一个进程执行,即先来先服务的原则,但仅能运行一个时间片,如100ms.在使用完一个时间片后,即使进程并未完成其运行,它也必须释放出(被剥夺)处理机给下一个就绪的进程,而被剥夺的进程返回到就绪队列的末尾重新排队,等候再次运行。

举例

假如时间片设置为2

进程和线程 - 图56

进程和线程 - 图57

进程和线程 - 图58

每个进程运行时间片的大小为2,运行完时间片后如还没有处理完任务,就将其进程放入就绪队列,刚到达的队列也进入就绪队列,从就绪队列中取出进程运行。

假如时间片设置为5

进程和线程 - 图59

那么此时时间片设置的过大,此时时间片明显大于进程的运行时间,那么就相当于是先来先服务算法,会增大进程的响应时间。

时间片设置的问题

进程和线程 - 图60

在时间片轮转调度算法中,时间片的大小对系统性能的影响很大。如果时间片足够大,以至于所有进程都能在一个时间片内执行完毕,则时间片轮转调度算法就退化为先来先服务调度算法。如果时间片很小,那么处理机将在进程间过于频繁切换,使处理机的开销增大,而真正用于运行用户进程的时间将减少。因此时间片的大小应选择适当。时间片的长短通常由以下因素确定:系统的响应时间、就绪队列中的进程数目和系统的处理能力。

优先级调度算法

进程和线程 - 图61

举例

非抢占式

进程和线程 - 图62

抢占式

进程和线程 - 图63

补充

进程和线程 - 图64

多级反馈队列调度算法

进程和线程 - 图65

举例

进程和线程 - 图66

先是P1进程到达,开始运行一个时间片之后放入第二级队列,此时P2也正好到达,那么P2进入第一级队列,此时P2的优先级高于P1,那么就会运行P2一个时间片,运行1个时间片后,将放入第二级队列,此时由于P1先放入第二级队列,那么在运行P12个时间片,此时再将P1放入第三级队列,然后在运行P2,但此时P2运行一个时间片后,P3到达,且P3在第一级队列,所以P3抢占CPU,运行一个时间片,P2此时被抢占,2个时间片还没运行完,此时不放入第三级队列,而是继续放入第二级队列的尾部,此时P3运行完毕后,在运行第二级队列的P2,运行完P2后再运行P3。

总结

image.png