文档库 最新最全的文档下载
当前位置:文档库 › Linux基础教程(清华课件)

Linux基础教程(清华课件)

----------------------- Page 1-----------------------

清华大学计算机基础教育课程系列教材 汤荷美董渊李莉程志锐编著

Linux基础教程(1)
操作系统基础

----------------------- Page 2-----------------------

第2章 处理机管理

2.1 作业
2.2 进程
2.3 线程
2.4 小结
习题

----------------------- Page 3-----------------------

提高处理机(CPU)的使用率,使它尽可能处于工作
状态,是操作系统管理功能的主要目标之一。
在Linux系统中,提高处理机使用率的技术措施主
是多道和分时,处理机在进程之间切换,按照一定
的规则轮流执行每个进程。对于单个处理机的系
统,这些进程宏观上看似并行执行,而微观上来看
仍然是串行执行的,这种执行方式被称为并发执
行。操作系统通过并发控制机制,对处理机进行分
配、调度,在保证每个进程都得到公平合理执行的
同时,使系统中的各种资源得到充分的使用。
本章主要围绕处理机管理展开,着重介绍进程的概
念,同时也包括相关的两个基本概念:作业和线
程。

----------------------- Page 4-----------------------

2.1 作业

作业是用户向计算机系统提交一项工作的基本单位,
是用户在一次事务处理或计算过程中要求计算机所
做工作的总和。
作业和程序是两个相互联系而又不同的概念。如果一
次业务处理可以由某一个程序完成,就是说这个业
务处理只要提交这一个程序就够了,这种情况下,
这个程序就是一个作业。通常,完成一次业务需
由多个程序协同完成,这时,多个程序、这些程序
需要的数据以及必要的作业说明一起构成一个作
业。系统通过作业说明书或者作业控制语句(JCL)
控制程序和相应的数据执行,完成整个业务处理。

----------------------- Page 5-----------------------

按照对作业的处理方式,可以分为联机、批处理等作
业。
Linux系统中的shell提供了操作系统和用户之间的联
机命令接口。
Linux的shell同时提供了程序级接口。用户通过提交
一个命令或一个命令序列以批处理方式执行特定的
操作(详见本书第2部分)。
在Linux分时批处理系统中,也可以根据对作业执行
时的响应特征分为前台作业和后台作业。
在多用户系统中,多个用户、不同类型的作业可能同
时请求执行,控制和管理这些作业,协调它们之间
的关系,就是作业调度,作业调度是处理机调度的
一部分。

----------------------- Page 6---------------

--------

2.2 进程

计算机内存中同时存放多个相互独立的已经开始运行
的程序实体,大家按照某种规则轮流使用处理器,
这是现代多道操作系统实现资源共享,提高系统资
源利用率的主要方式。描述这些程序实体的概念就
是进程。
在多道情况下,每个进程独立地拥有各种必要的资
源,占有处理机,独立地运行。在多道系统中,同
时存在多个进程,所以当某个进程进入等待状态
时,操作系统将把处理机控制权拿过来并交给其他
可以运行的进程。进程之间存在着相互制约、相互
依赖的约束关系。

----------------------- Page 7-----------------------

一种最糟糕的情况是所有进程都拥有部分资源,同时
在等待其他进程拥有的资源,这样,大家都无法运
行,进入一种永久等待的状态,这种情况称为死
锁,死锁是对系统资源极大的浪费,必须设法避
免。
本节着重讨论现代多道操作系统中的核心概念——进
程,这是理解操作系统工作原理的基础和关键。首
先介绍单个进程的状态、状态转换的条件和控制原
语、进程在系统中的静态描述等,接着介绍多个进
程之间的约束关系,由此引出进程间通信的概念,
通信是协调、解决进程间约束关系的惟一手段,这
种约束关系处理不当造成的最严重的后果就是死
锁。

----------------------- Page 8-----------------------

2.2.1 进程的概念
进程(process)的概念最早出现在60年代中期,用
于多道系统,在Linux系统中,进程也称为任务
(task)。简单地讲,进程就是正在运行的程序,
更为严谨的表达是,进程是一个具有一定独立功能
的程序关于某个数据集合的一次运行活动。
进程的概念对于理解操作系统有决定性的意义,而真
正理解进程,必须了解它的基本性质。
进程是操作系统分配资源和进行调度的独立单位,具
有独立性。同时,具有动态性。多道系统中同时存
在多个进程,这些进程拥有各自的资源,各自独立
地执行,对于单处理机系统,进程宏观上同时运行
而微观上是依次执行,这种情况称为并发执行。

----------------------- Page 9-----------------------

1. 进程和程序
进程和程序是一对相互联系的概念。程序是指令的有
序集合,是一个静态的概念,描述完成某个功能的
一个具体操作过程,而进程是程序针对某一组数据
的一次执行过程,更强调动态特征。一个完整的进
程,包括程序、执行程序所需要的数据,同时还必
须包括记录进

程状态的数据资料。
在多道分时操作系统中,按照时间片轮流在各个进程
间切换。对于单处理器系统,每一个时刻只能有一
个进程在执行,当分配给该进程的时间片用完之
后,不管该进程运行到什么程度,都必须立即停
止,然后让出处理器资源,下一个进程进入执行状
态。

----------------------- Page 10-----------------------

让出处理器的进程必须记录好正在运行的状态,包括
寄存器、堆栈等各种信息,这些信息保证当处理器
下次切换到这个进程的时候,进程能够正确地从上
次执行到的位置继续往下执行。
一个程序在处理相同或不同的操作数据时可以同时对
应于多个进程。一个进程也可以包含多个程序,某
个程序在运行过程中,可能同时会调用到多个其他
程序,这些具有调用关系的多个程序共同构成一次
完整的运行活动,即一个完整的进程。

----------------------- Page 11-----------------------

举一个直观的例子。我们在Linux系统下使用编辑器
vi进行编辑,同时打开多个窗口,编辑多个不同名
称的文件,vi编辑器是一个可执行程序,不同的文
件就是不同的操作数据,而对应于这些文件同时打
开的每一个编辑窗口就对应着一个进程,每一个进
程都处于不同的状态。
如果说程序是提供计算机操作的一组工作流程的话,
进程就是具体的工作过程,按照同样的工作流程,
针对不同的原料,可以同时开始多个工作过程,得
到多种不同的成品。这种工作流程和工作过程的关
系就可以类比为程序和进程的关系。

----------------------- Page 12-----------------------

2. 进程和作业
作业是用户向计算机系统提交一项工作的基本单位,
是用户在一次事务处理或计算过程中要求计算机所
做工作的总和。进程是一个具有一定独立功能的程
序关于某个数据集合的一次运行活动,是操作系统
分配资源和进行调度的基本单位。
作业是描述用户向系统提交工作任务的实体单位,而
进程是系统完成工作任务时程序执行的实体单位。
从这个角度讲,他们处于不同的层次,作业描述用
户和操作系统之间的任务委托关系,而进程描述操
作系统内部任务的具体执行过程。一个用户的任
务,即作业,由用户提交给系统,必须以进程的形
式具体完成。

----------------------- Page 13-----------------------

对于批处理系统,通常,作业放在外存中专门的作业
队列中等待进入内存执行,要经过一次宏观调度,
由外存进入内存

,以进程的形式运行。而对于
UNIX/Linux这样的分时系统,没有宏观调度,作
业不经过调度,直接进入内存,以进程的形式开始
运行。任何一个进程,都存在于内存中,并且是已
经开始运行的动态实体。

----------------------- Page 14-----------------------

2.2.2 进程描述
我们知道,进程是一个动态的概念,描述程序的一次
运行活动。它存在于系统的内存中,是操作系统可
感知、可控制的动态实体,是系统分配各种资源、
进行调度的基本单位。
1. 进程控制块
现在我们来讨论进程在内存中的静态存在方式。在多
道系统中,处理机在多个进程之间来回切换,每个
进程都会在暂停、运行这两种状态之间来回转换。
当一个进程在处理机切换过来重新进入运行状态
时,它必须严格精确地接着上次运行的位置继续进
行,进程的静态描述可以保持切换现场,确保准确
衔接,保证进程调度的实现,顺利完成程序所规定
任务。

----------------------- Page 15-----------------------

进程切换现场称为进程上下文(context),包含了一个
进程所具有的全部信息,一般包括:进程控制块
(Process Control Block,PCB)、有关程序段和
相应的数据集,具体组成见图2.1。程序段是某个
进程执行的相关指令集合,和静态的程序段有明确
的对应关系,相应数据集是这个程序段正在操作的
那部分数据,PCB是记录进程各种状态的数据体,
PCB是操作系统管理感知、控制进程的数据实体,
通过它,就可以找到进程的程序段和数据集,系统
正是通过PCB来控制进程的。一般来讲,PCB记录
着进程的所有资料,是全部或部分常驻内存的,
PCB记录着程序段和数据集的地址指针,通过这些
指针,就可以得到具体的指令和数据。

----------------------- Page 16-----------------------

PCB记录了进程的全部控制信息,一般较庞大而复
杂,它可以按照功能大概分成四个组成部分:进程
描述信息、进程控制信息、进程相关的资源信息和
CPU现场保护结构(如图2.1)。

图2.1 进程描述数据关系示意图(进程上下文)

----------------------- Page 17-----------------------

2. Linux的PCB
Linux系统的进程控制块PCB用一个称为task-struct
的结构体来描述。
(1) 进程描述信息
通过进程描述信息,Linux系统可以惟一地确定某一
个进程的基本情况,可以了解该进程所属的用户及
用户组等信息,同时还能确定这个进程与所有其他
进程之间的关系。这些描述信息包括:进程

号、用
户和组标识以及描述进程家族关系的连接信息。

----------------------- Page 18-----------------------

①进程号(pid,process identifier)
Linux系统为每一个进程分配一个标识号,通过这个
标识号识别、控制、调度这个进程,别的进程也通
过这个标识号来识别这个进程并与之通信,用户也
可以使用操作命令或系统调用通过标识号来控制该
进程。
②用户和组标识(user and group identifier)
Linux系统中有四类不同的用户和组标识,主要用来
控制进程对系统文件的访问权限,实现系统资源的
安全访问。
Linux使用组将文件和目录的访问特权授予一组用
户,一个进程可以同时属于多个组,这些组都被放
在进程的task-struct中的group数组中。

----------------------- Page 19-----------------------

③连接信息(Links )
Linux系统中的进程之间形成树状的家族关系,连接
信息记录某个进程的父进程、兄弟进程(具有相同
父进程的进程)以及子进程的信息,描述一个进程
在整个家族系统中的具体位置。
(2) 进程控制信息
进程控制信息记录了进程的当前状态、调度信息、记
时和时间信息以及进程间通信信息,是系统确定进
程的状态、了解进程之间的关系、进行进程调度的
主要依据。
①进程当前状态
进程的生命周期中,总是不停地在各种状态之间转
换,有关进程的状态及转换规则,在下一小节讨
论。

----------------------- Page 20-----------------------

②调度信息
系统的调度程序利用这部分信息决定哪一个进程应该
运行,包括优先级、实时优先级、计数器和调度策
略。
③记时信息
包括时间和定时器,给出进程占有和利用CPU的情
况,是调度的依据,也是进行统计、分析以及记费
的依据。
④通信信息
多个进程之间通信的各种信息也记录在PCB中。
Linux支持典型的UNI 进程间通信机制——信号、
管道,也支持System Ⅴ通信机制——共享内存、
信号量和消息队列。

----------------------- Page 21-----------------------

(3) 进程资源信息
Linux的PCB中包含大量的系统资源信息,这些信息
记录了与该进程有关的存储器的各种地址和资料、
文件系统以及打开文件的信息等等。通过这些资
料,进程就可以得到运行需要的相关程序段以及必
要的数据。
(4) CPU现场信息
进程的静态描述必须保证一个进程在获得处理机并重
新进入运行状态时,能够精确地接着上次运行的位
置继续进行。相关程序段和数据集

以及处理机现场
(或处理机状态)都必须保存。处理机(CPU)现
场信息一般包括处理机的内部寄存器和堆栈等基本
数据。

----------------------- Page 22-----------------------

task-struct是Linux系统的进程控制块(PCB),通
过对PCB的操作,系统为进程分配资源并进行调
度,最终完成进程的创建和撤销。系统利用PCB中
的描述信息来标识一个进程,根据PCB中的调度信
息决定该进程是否应该运行。如果这个进程要进入
运行,首先根据其中的CPU现场信息来恢复运行现
场,然后根据资源信息获取对应的程序段和数据
集,接着上次的位置开始执行,同时通过PCB中的
通信信息和其他进程协同工作。

----------------------- Page 23-----------------------

2.2.3 进程状态及转换
系统通过PCB对进程进行控制,进程不断地在不同的
状态之间转换。
1. 进程的基本状态
在分时系统中,一个进程拥有了所需要的全部资源,
就可以开始执行,当分配的时间片结束,让出CPU
资源,这种只要能够占有CPU就能进入执行的状态
称为就绪状态。有时,多个进程之间互相制约,某
个进程必须等到某个事件发生(才能够竞争CPU资
源,这是等待状态,当等待的事件发生之后,这个
进程被唤醒,由等待状态进入就绪状态,直到获得
CPU才开始执行。等待状态、就绪状态和执行状态
是一个进程所具有的最基本的三种状态,见图
2.2。

----------------------- Page 24-----------------------

图2.2 进程基本状态及转换示意图

----------------------- Page 25-----------------------

2. Linux系统进程状态
Linux系统的2.2.16版本进程共有六种状态,包括运
行状态、可中断等待状态、不可中断等待状态、僵
死状态、暂停状态和交换状态,而在2.4.0版本中取
消了交换状态,加入独占状态。
表2.1 Linux系统(2.2.X—2.4. 版本)进程状态表

进程状态 值 说明

TASK-RUNNING 0 运行态

TASK-INTERRUPTIBLE 1 等待态,可中断

TASK-UNINTERRUPTIBLE 2 等待态,不可中断

TASK-ZOMBIE 4 僵死态

TASK-STOPPED 8 暂停态

TASK-SWAPPING 16 交换态(2.4. 版本已取


TASK-EXCLUSIVE 32 消)
独占态

----------------------- Page 26-----------------------

(1) 运行状态(running)
Linux系统中的运行状态实际包含了上述基本状态中
的执行和就绪两种状态,进程到底是正在运行还是
处于就绪状态准备运行,要靠当前是否占有CPU资
源来区分。
(2) 等待状态
Linux系统把基本的等待状态进一步细化为可中断的
等待态和不可中断的等待态两种。处于这种状态的
进程都在等待某个事件或某个资源,可中断等待状
态的进程可以被信号唤醒而进入就绪状态等待调
度,而不可中断等待状态的进程是因为硬件资源无
法满足,不能被信号唤醒,必须等到所等待的资源
得到之后由特定的方式唤醒。

----------------------- Page 27-----------------------

(3) 僵死状态(zombie)
由于某些原因进程被终止,这个进程所拥有的内存、
文件等资源全部释放之后,还保存着PCB信息,这
种占有PCB但已经无法运行的进程就处于僵死状
态。
(4) 暂停状态
处于暂停状态的进程,一般都是由运行状态转换而
来,等待某种特殊处理。比如处于调试跟踪的程
序,每执行到一个断点,就转入暂停状态,等待新
的输入信号。
(5) 交换状态
处于交换状态的进程正在执行内存、外存的交换工
作。这个状态在2.2. 版本的内核中基本已经不使
用,在2.4. 版本中没有这种状态。

----------------------- Page 28-----------------------

(6) 独占状态
它应该是等待状态的一种,处于独占状态的进程位于
等待队列中,当等待的事件发生时,只有处于这种
状态的进程被唤醒,其他处于可中断和不可中断等
待状态的进程则继续等待。Linux 2.4引入独占状态
后,如果事件发生,只唤醒处于独占状态的那一个
进程,这就可以大大提高Apache这类Web应用的效
率,使Linux更适合网络服务器的角色。
来看Linux系统进程的状态转换情况。采取一定的简
化措施:按照进程是否占有处理机为依据,把进程
的运行状态分为执行和就绪两种状态;等待状态统
一考虑,不再区分是否可中断,独占状态也作为一
种等待状态处理;不涉及交换状态。见图2.3。

----------------------- Page 29-----------------------

图2.3 Linux系统进程状态及转换示意图
图2.3同时也记录了一个进程在整个生命周期的变化
过程。从图的左下方开始看,系统在某种特定的情
况下,响应某个要

求,首先分配各种资源,创建一
个新的进程,进程进入就绪队列。

----------------------- Page 30-----------------------

所有的进程必须在就绪之后,才有资格竞争CPU,
进入运行状态。这样,进程的整个生命周期中,大
致的转换路径总是沿着三个闭合回路进行。
就绪状态和执行状态形成第一个回路。进程进入就绪
态,放入可执行队列等待,一旦被调度函数选中,
就切换现场,进入运行状态,等自己的时间片耗尽
之后,马上保护现场,让出CPU,转入就绪状态,
等待新的调度。
执行状态、等待状态和就绪状态形成第二个回路。处
于执行状态的进程,有时需要等待某个事件或某种
资源的发生,这时,继续占有CPU也无法开展工
作,就转入等待状态,CPU由下一个被调度的进程
占有。当等待进程所等待的事件发生后,等待进程
被唤醒,进入就绪状态。

----------------------- Page 31-----------------------

执行状态、暂停状态和就绪状态构成第三个回路。当
接收到某种特殊的信号,比如SIGSTOP (Linux的
停止信号)时,处于执行状态的进程放弃CPU,保
护现场之后,进入暂停状态,直到获得另外一个特
殊的信号才进入就绪状态。
一个处于执行状态的进程调用退出函数exit之后,进
程就会进入僵死状态,这种状态下,进程释放了
PCB之外的所有系统资源。也就是说,它在系统中
只留下这个进程的一个PCB。
僵死进程的父进程通过PCB了解到该进程所处的状态
后,采取相应的处理措施,回收PCB,这个进程就
完成了它的使命,从僵死走向彻底消亡,上图右上
方的虚箭头表示了这种结局。

----------------------- Page 32-----------------------

2.2.4 进程控制
进程控制,是指对系统中的全部进程实施有效的管
理,使得进程能够及时创建、撤销,正确地完成进
程各状态之间的转换,使得多个进程高效率并发执
行,达到系统资源高度共享的目的。
进程状态之间的转换转换通常由三种不同的方式控
制:进程控制原语、系统核心函数(比如调度)、
和外部事件发生(比如中断)。
这里说的所谓原语,指系统状态下执行的一些具有
特定功能的程序段,这些程序段具有“原子性” ,
是执行过程中不可分割的最小单位。用于进程控制
的原语有:创建原语、撤销原语、阻塞原语、唤醒
原语等。

----------------------- Page 33-----------------------

(1) 创建原语
进程创建原语用于建立一个新的进程,这个新进程可
以由内核调用

进程创建原语建立,也可以由父进程
执行进程创建原语生成一个子进程,子进程还可以
生成子进程,以形成树形进程家族结构。进程创建
原语的主要任务是形成进程的PCB,因此,调用
者必须提供有关的参数,例如进程名、进程优先
级、进程正文段起始地址、资源清单等。
(2) 撤销原语

当一个进程完成了指定的任务或由于某种错误导致异
常终止时,要撤销这个进程以便释放进程占用的资
源。进程撤销原语根据调用者提供的信息,找到指
定的进程,回收其占用的资源和PCB。

----------------------- Page 34-----------------------

(3) 阻塞原语
当正在运行的进程需要等待某一事件,由自己调用阻
塞原语把自己阻塞起来成为等待状态。阻塞原语主
要完成保护CPU现场的工作,即首先中断处理机
保存该进程的CPU现场,然后把被阻塞的进程置为
等待状态,插入到相应的等待队列,最后转入进程
调度程序,从就绪队列中选择一个进程投入运行。
(4) 唤醒原语
当处于等待状态的进程所等待的事件出现时,由发现
者进程调用唤醒原语唤醒被阻塞的进程。
进程控制原语由系统执行。同时,操作系统还提供了
一些用于进程控制的系统调用和操作命令,用户可
以通过程序或者命令的方式控制进程。

----------------------- Page 35-----------------------

2.2.5 进程约束
现代操作系统中,程序并发执行,多个进程各自独立
地运行,同时竞争和共享系统中有限的资源,这种
竞争与合作构成了系统进程之间的约束关系。每个
进程独立地申请和释放系统资源,把申请某一类资
源的进程称为该类资源的消费者,把释放同类资源
的进程称为该类资源的生产者,就得到描述进程约
束关系的一般模型:生产者-消费者问题,也称为
有界缓冲区问题。
比较简单的情况,两进程共享一个长度为N (N>0)
的有界缓冲区,一个进程Pp往缓冲区中送数据,是
生产者,另一个进程Pc从缓冲区中读取数据,是消
费者,如图2.4,下面来讨论它们间的约束关系。

----------------------- Page 36-----------------------

图2.4 简单的生产者-消费者问题

----------------------- Page 37-----------------------

首先,生产者进程Pp和消费者进程Pc共享同一个有
界缓冲区,对这个缓冲区的操作必须是独占的。这
种不允许多个并发进程交叉执行的资源称为临界资
源,临界的程序段资源称为临界部分或临界区。临
界资源是由于不同并发

进程共享某个资源造成的,
不可能通过增加资源的方法解决。这种因为共享某
一公有资源而引起的在临界资源内不允许并发进程
交叉执行的现象,称为进程间的间接约束。
由于对临界资源的共享,而产生了临界区问题。对于
有着临界区问题的并行进程之间必须互斥,以保证
不会同时进入临界区。

----------------------- Page 38-----------------------

其次,对生产者进程Pp和消费者进程Pc访问共享有
界缓冲区的顺序有严格的要求。具体来讲,这种限
制为:
(1) 消费者进程Pc要接收数据时,有界缓冲区必须至
少有一个单元是满的;
(2) 生产者进程Pp要发送数据时,有界缓冲区必须至
少有一个单元是空的。
这样存在一组相互独立的并发进程,各自的执行结果
互为对方的执行条件,从而限制各进程执行速度的
过程,称为进程间的直接制约。存在直接制约关
系,相互发送消息进行互相合作、互相等待,各自
按照一定的速度向前推进的过程称为同步。

----------------------- Page 39-----------------------

消费者进程和生产者进程之间因为共享缓冲区,相互
竞争而间接制约,具有互斥关系,同时相互以对方
的运行结果为条件而直接制约,也具有同步的关
系,是一对同时具有竞争和合作的进程。
在并发系统中,进程之间相互制约,具有同步和互斥
是相当普遍的现象。这种进程之间的相互关系,依
靠单个进程自身的力量是无法解决的,必须以进程
间的相互通信为基础,互相发送信息,才能协调解
决。具体的同步、互斥实现方案有很多种,分别基
于不同的通信方式。

----------------------- Page 40-----------------------

2.2.6 进程通信
进程间通信是协调解决多个进程之间的约束关系,实
现进程共同进展的关键技术,是多道系统中控制进
程并发执行必不可少的机制。进程间的通信有两种
方式:一是互相发送少量的控制信息,一般只传递
一个或者几个字节的数据,进程利用这些简单的信
息,实现互斥和同步,控制运行速度,这种简单的
通信方式被称为进程间的低级通信;另外一种方式
称为进程间的高级通信,基本不涉及进程执行速度
控制,用来在进程之间传递大量的信息,由于这种
通信方式主要用于交换信息,因此,在开发本地
进程间通信的同时,也为远程进程间的通信,和计
算机网络的开发及控制奠定了基础。

----------------------- Page 41-----------------------

1. 进程通信类型
按照通信进程双方

的地位,可以把进程通信分为:主
从式、会话式、消息或邮箱机制以及共享存储区四
种类型。
(1) 主从式
主进程一方在整个通信过程中处于绝对的控制地位,
它可以直接控制从进程的动作,自由地使用从进程
的资源和数据。
(2) 会话式
一方进程提供服务,另外一方进程在得到服务方的许
可之后,可以使用其提供的服务。在通信过程中,
双方的连接关系固定,客户进程提出服务请求,服
务进程根据情况控制服务的状态和内容。

----------------------- Page 42-----------------------

(3) 消息或邮箱机制
通信双方具有平等的地位,和现实生活中的邮件类
似。通信双方通过缓冲区或邮箱存放被传送的数
据,不需要建立双方直接的连接关系。申请通信
的发起方进程不管接收方进程的状态,把信息直接
送入双方共享的缓冲区(或者邮箱)中,接收进程
在合适的时机去读取缓冲区(或者邮箱)以接收信
息。
(4) 共享存储区

共享存储区通信方式中,通信双方进程共享内存中的
一段存储空间,共同操作这个存储区,达到数据共
享的目的。通信过程中,数据一直存放在共享存储
区中,不需要移动,因此特别适用于大量数据的传
递。

----------------------- Page 43-----------------------

2. Linux系统的进程通信
Linux系统提供了多种通信机制,利用这些机制,可
以方便地进行进程之间的相互协调,实现进程的互
斥和同步。
(1) 信号(signal)
信号属于Linux系统的低级通信,主要用于在进程之
间传递控制信号。
信号可以发给一个或多个进程,可以是由某个进程发
出,也可以由键盘中断产生,还可以是由shell程序
向其子进程发送任务控制命令时产生。进程在某些
系统错误环境下也会有信号产生。

----------------------- Page 44-----------------------

除了两个信号外,进程可以忽略这些信号中的绝大部
分,这两个信号是引起进程终止执行的SIGSTOP
信号和引起进程退出的SIGKILL信号。至于其他信
号,进程可以选择处理它们的具体方式。信号没有
固有的相对优先级。
并不是系统中每个进程都可以向所有其他进程发送信
号,只有核心和超级用户具有此权限。普通进程只
能向具有相同uid和gid的进程或者在同一进程组中
的进程发送信号。信号是通过设置task-struct结构
中signal域里的某一位来产生的。如果进程没有阻
塞信号并且处于可中断的等待状态,则可以将其状
态改成running,若确认进程还处在运行队列

中,
就可以通过信号唤醒它。

----------------------- Page 45-----------------------

(2) 管道(pipe)
管道是UNI 操作系统传统的进程通信技术。Linux
管道通信包括无名管道和有名管道两种,通过文件
系统来实现。管道也是一种特殊的文件类型,实际
上是通过文件系统的高速缓冲实现的。
两个进程通过管道进行通信时,两个进程分别进行读
和写操作,都指向缓冲区中同样的物理单元,一个
进程写入数据,另一个进程从缓冲区中读取数据,
从而实现信息传递。管道方式只能按照先进先出方
式单向传递信息。管道方式可以用来进行大规模的
数据传递。

----------------------- Page 46-----------------------

(3) SYSTEM Ⅴ进程间通信
信号量、消息队列和共享内存是UNIX/Linux系统常
用的通信方式。
消息队列用来在进程之间传递分类的格式化数据,共
享内存方式可以使不同进程共同访问一块虚拟存储
空间,通过对该存储区的共同操作来实现数据传
递,信号量主要用于进程之间的同步控制,通常和
共享内存共同使用。
这三种方式在系统中是作为一个整体实现的。
共享内存是这三种方式中通信效率最高的,它在进程
的虚拟空间中进行,而且不需要数据的移动也可以
实现大规模的数据传递。

----------------------- Page 47-----------------------

(4) 套接字(socket)
套接字是用来通过网络实现运行于不同计算机上的进
程之间通信的机制。它可以实现数据的双向规模传
递,是整个网络通信的基础。具体的原理和实现与
网络协议等有关,不做具体的介绍。

----------------------- Page 48-----------------------

2.2.7 死锁
死锁,是指所有并发进程都拥有部分资源,同时都在
等待其他进程拥有的资源,而且在得到对方资源之
前不会释放自己占有的资源,所有进程都进入永久
等待状态而无法运行的情况。死锁是并发进程约束
关系处理不当造成的最严重的后果,是对系统资源
极大的浪费,必须设法避免。
死锁出现的根本原因是系统资源的有限性。并发进程
竞争资源,调度不当,就可能出现死锁的情况,因
此必须采取适当的措施来消除死锁。

----------------------- Page 49-----------------------

产生死锁的必要条件有四个:并发进程之间是互斥关
系,每个进程必须独占某个系统资源;进程占有的
资源在未结束使用之前,不能被强行剥夺,只能由
该进程自己释放;进程需要的资源采用部分分配的
方式,在等待新资源的同时,继

续占有已分配的资
源;各占有资源的进程形成环路,每一个进程已获
得的资源同时被下一个进程请求。

----------------------- Page 50-----------------------

解决死锁的方案就是破坏死锁产生的必要条件。方法
分为预防、回避、检测恢复三种。预防指采取某种
策略,控制并发进程对资源的请求,保证死锁的四
个必要条件在系统运行的任何时刻都无法满足。避
免指系统采取某种算法,对资源使用情况进行预
测,使资源分配尽可能合理,避免死锁的发生。这
两种方法需要大量的系统开销,而且系统的资源也
无法得到充分的利用。因此,一般系统都采取检测
恢复的方法,这种方法是在死锁发生之后,根据系
统情况,检测死锁发生的位置和原因,使用外力,
重新分配资源,破坏死锁发生的条件,系统就可以
从死锁状态恢复正常运行,这样的方法只要使用少
量的系统资源,尤其是CPU时间就可以排除死锁。

----------------------- Page 51-----------------------

2.3 线程

多道处理系统中,进程是系统调度和资源分配的基本
单位,计算机的CPU不停地在不同进程之间切换,
进程切换现场称为进程上下文,每一次切换过程,
系统都要对换出进程的上下文做详细记录,然后恢
复换入进程的上下文。因此,系统的进程管理过程
要耗费相当多的系统资源和CPU时间,尤其是对于
需要频繁进程切换的任务。
针对进程切换的时间和资源耗费问题,为了减少系统
进程切换的时间,提高整个系统的效率,引入了线
程的概念。

----------------------- Page 52-----------------------

2.3.1 线程的概念
线程是在一个进程内的基本调度单位。线程可以看作
是一个执行流,拥有记录自己状态和运行现场的少
量数据(栈段和上下文),但没有单独的代码段和
数据段,而是与其他线程共享。
多个线程共享一个进程内部的各种资源,分别按照不
同的路径执行,同时线程也是一个基本调度单位,
可以在一个进程内部进行线程切换,现场保护工作量
小。一方面通过共享进程的基本资源而减轻系统开
销,另一方面提高了现场切换的效率,因此,线程
也被称为轻权进程或轻量级进程。许多流行的多任
务操作系统基本都支持线程。

----------------------- Page 53-----------------------

按照系统的管理策略,线程可以分为用户级线程和系
统级线程(内核级线程)两种基本类型。用户级线
程指不需要内核支持,在用户程序中实现的线程都

要用户程序自己完成。系统级线程由内核完成线
程的调度并提供相应的系统调用,用户程序可以通
过这些接口函数对线程进行一定的控制和管理。
用户级线程不需要额外的内核开销,一般只要提供一
个线程库即可,剩下的工作就主要由用户自己负责
了。但是由于用户级线程与系统内核无关,当一个
进程因I/O而被调度程序切换为等待状态时,属于
该进程的某个执行线程可能仍然处于执行状态。
系统级线程的调度由内核完成,不需要更多用户干
预,但要占用更多的系统开销,效率相对低一些。

----------------------- Page 54-----------------------

线程也是系统中动态变化的实体,它描述程序的运行
活动,在内存中需要记录。线程的记录信息要保证
系统能够准确地进行线程切换。
在线程的生命周期里,线程作为一个基本的执行单位
而存在,不断地在执行和停止的状态之间转换。线
程的基本状态是执行、就绪和等待。
线程的同步是一个相当关键的问题。线程之间的通信
相对容易,而线程间的同步问题需要更仔细地对
待,特别是用户级线程,这个问题相当突出。

----------------------- Page 55-----------------------

2.3.2线程和进程
进程是操作系统资源分配和系统调度的基本单位,每
一个进程都有自己独立的地址空间和各种资源,线
程也是一种系统调度的基本单位,多个线程可以共
享一个进程的资源,在存储方面,线程占用的资源
更少。
进程的调度主要由操作系统完成,而线程根据其类型
的不同,可以由系统调度(内核级线程),也可以
由用户进行调度(用户级线程)。

----------------------- Page 56-----------------------

进程调度的过程中要进行切换,切换现场的保护与恢
复要求对进程上下文做完整的记录,要消耗一定的
存储资源和处理机时间;线程共享进程的资源,可
以在进程内部切换,不涉及资源保存和内存地址变
换等操作,可以节约大量的空间和时间资源。因
此,对于切换频繁的工作任务,多线程方式比多进
程方式可以提供更高的响应速度。
多个线程共享同一进程的资源,线程相互间通讯容
易。而进程间通讯一般必须要通过系统提供的进程
间通讯机制。
进程和线程都是用来描述程序的运行活动,是存在于
系统存储区中的动态实体,都有自己的状态,整个
生命周期都在不同的状态之间切换。

----------------------- Page 57-----------------------

2.3.3 Linux系统的线程
Linux可以同时支持内

核级线程(也称为系统级线
程)和用户级线程。
Linux的系统级线程在表示格式、管理调度等方面与
进程没有严格的区分,都是当作进程来统一对待。
Linux系统级线程和进程的区别主要在于资源管理方
面,线程可以共享父进程的部分资源(执行上下
文)。在Linux系统中,线程共享资源的类型是可
以控制的,系统调用clone里有五种形式的clone:
CLONE-VM (存储空间),CLONE-FILES (文
件描述表),CLONE-FD (文件系统信息),
CLONE-SIGHAND (信号控制表),CLONE-PID
(进程号)。

----------------------- Page 58-----------------------

Linux的内核级线程和其他操作系统的内核实现不
同。大多数操作系统单独定义描述线程的数据结
构,采用独立的线程管理方式,提供专门的线程调
度,这些都增加了内核和调度程序的复杂性。而在
Linux中,将线程定义为“执行上下文”,它实际只
是进程的另外一个执行上下文而已,和进程采用同
样的表示、管理、调度方式。这样,Linux 内核并
不需要区分进程和线程,只需要一个进程/线程数
组,而且调度程序也只有进程的调度程序,内核的
实现相对简单得多,而且节约系统的用于管理方面
的时间开销。但是,Linux系统使用相对复杂的进
程控制块来记录信息,而线程本身的控制信息很
少,完全可以采用相当简单的线程控制块数据结
构,这就造成了内存空间的一定浪费。

----------------------- Page 59-----------------------

一个值得注意的问题是,在Linux系统中,专门有一
种称为kernel threads的线程,直译为内核线程,它
和我们这里讨论的系统级线程(kernel level
threads)在Linux系统中是两个完全不同的概念,
它们的区别,将在4.3节“Linux进程调度”中详细介
绍。
Linux支持POSI 标准定义的线程(pthreads),提
供用户级线程支持。利用这样的线程库函数,用户
可以方便地创建、调度和撤销线程,也可以实现线
程间通信,而且这些线程还可以映射为系统级线
程,由系统调度执行。实现用户级线程创建的函数
是pthread-create。

----------------------- Page 60-----------------------

2.4 小结

进程是现代操作系统的核心概念,它用来描述程序执
行的过程,是实现多道操作系统的基础。和进程联
系密切的概念是程序、作业和线程,正确地区分和
理解这些概念,有助于正确地理解和认识计算机操
作系统本

身。
Linux系统中基本没有区分进程和线程,它们都使用
相同的描述方法,使用相同的调度和管理策略。描
述进程的静态数据是进程控制块PCB。在Linux等
多道操作系统中,程序是并发执行的,进程的个数
总是多于系统CPU的个数,宏观上所有进程同时都
在运行,微观上这些进程轮流使用CPU,在执行、
等待和就绪等基本状态之间转换,直到执行完成。

----------------------- Page 61-----------------------

习题
2-1 什么是作业?简述Linux系统作业的概念。
2-2 作业、程序和进程有什么区别?
2-3 进程能不能理解为由伪处理机执行的一个程序?
为什么?
2-4 什么是进程间的互斥和同步?
2-5 并发进程间的制约有哪几种?引起的原因分别是
什么?
2-6 Linux系统中的线程有哪几类?分别是如何描述
和管理的?
2-7 访问Internet,了解Linux系统进程控制块的现
状,有哪些改进,你认为改进方案如何?

----------------------- Page 62-----------------------

第3章 存储管理

3.1 虚拟存储器
3.2 内存管理方式
3.3 80386段页机制
3.4 Linux存储管理
3.5 小结
习题

----------------------- Page 63-----------------------

每一个要运行的程序,必须首先进入内存,然而,每
一台计算机的内存容量都是有限而宝贵的。存储管
理的任务是方便用户使用存储资源,在有限的物理
空间内使更多的用户进程高效地获得和使用尽可能
多的存储空间,从而提高系统的整体性能。

现代操作系统中普遍采用基于虚拟存储器的概念来统
一管理内存和外存,实现逻辑上的大容量存储空
间。

----------------------- Page 64-----------------------

本章首先介绍虚拟存储器的基本概念及使用虚拟存储
器的依据和出发点——局部性原理,即在程序的运
行过程中,总是集中地访问某一个程序段。根据这
样的原理,可以把物理内存按照一定的规则划分为
小部分,每次只装入某个进程必要的一部分内容就
开始运行,在运行过程中,再根据需要装入新的内
容。不同的划分规则形成不同的存储管理技术,我
们简单介绍分区、页式、段式和段页式管理的基本
思想。接着介绍Intel 80386硬件存储管理机制,最
后学习Linux系统在这种硬件平台的基本存储管理
机制。

----------------------- Page 65-----------------------

3.1 虚拟存储器

计算机系统的存储器分为内存(主存)和外存(硬
盘)。内存的价格昂贵,速度高,存储容量有限;
外存价格便宜,

速度慢,存储容量很大,适合于存
放大量数据。为了使更多的用户进程合理、充分地
使用存储资源,操作系统统一管理内存和外存,即
把内存中暂时不用的内容放在硬盘上,内存中就可
以腾出一部分空间,可以从硬盘装入其他迫切需
的内容。因此,从效果上看,计算机系统好像为用
户提供了一个其存储容量比实际主存大得多的存储
器。人们称这个存储器为虚拟存储器。

----------------------- Page 66-----------------------

3.1.1 局部性原理
实验证明,在几乎所有进程的执行过程中,某一个特
定的时间段中,CPU不是随机地访问整个程序或数
据,而是集中地访问程序或数据的某一个部分。进
程的这种访问特性称为局部性原理。
与CPU访问该局部内的数据和代码的次数相比,局
部段的变化很缓慢,正是基于这样的原理,我们才
有可能实现虚拟存储管理。把进程的所有内容划分
为一个个小的部分,首先只把系统所必需的部分数
据装入内存,其余部分就放在外存中,开始运行之
后,再把所需要的其他部分换入内存,同时把不再
需要的部分从内存中换到硬盘或者清除掉。当然,
与之相配合,实际的内存也要划分为对应的小部
分。

----------------------- Page 67-----------------------

这种内外存之间的数据交换对用户进程来讲是透明
的。从用户进程的角度来看,系统好像提供了一个
很大的内存一样,整个进程都能装进去而且正常运
行,这种逻辑上的大容量存储空间就可以称为虚拟
存储器。实际上,是操作系统的存储管理起了作
用,用多次内外存数据交换的时间换来了大容量的
并不真正存在的(虚拟的)内存。因此,可以想
象,访问虚拟存储器的速度要比访问真正内存的速
度要慢。

----------------------- Page 68-----------------------

3.1.2 虚拟地址和虚拟地址空间
内存中同时存在多个进程,每个进程的地址都是以0
地址作为起始地址的虚拟地址空间,这个虚地址空
间可以是线性的(一维的),也可以是多维的,这
要取决于系统采用的存储管理方式。进程中的每一
个指令和数据在这样的虚地址空间中都有一个惟一
确定的地址,即虚拟地址。
每一个进程都具有各自独立的虚拟地址空间,而整个
系统只有一个物理地址空间。任何一个要执行的进
程,都必须进入真正的内存中,在内存的物理空间
中存在,这就需要在虚拟地址空间和物理地址空间
之间建立适当的映射关系。通过这种映射

关系,逐
部分地把存在于虚拟地址空间中的进程要执行的

----------------------- Page 69-----------------------

部分放在物理地址空间中,而其他暂时不执行的部
分放在外部存储器中,内外存动态地传递数据,最
终完成整个进程所执行的任务。这种映射,也称为
地址变换,是操作系统在硬件的配合下实现的。
系统中的每一个进程,都有一个惟一的地址映射关
系,也就是说,虚拟地址空间到物理地址空间是一
个多对一的映射关系。这样,不同的进程有不同的
虚拟地址空间和映射变换,可以方便地实现进程之
间的存储保护,避免数据和程序遭受其他进程无意
或者恶意的访问,同时,它们都映射到惟一的物理
空间,可以通过多个进程同时映射同一个物理地址
的方式实现数据和程序的共享。

----------------------- Page 70-----------------------

3.2 内存管理方式

虚拟存储的每一个要运行的程序,都必须首先进入内
存,但是,每一台计算机的内存容量都是有限而宝
贵的。管理技术,通常是基于局部性原理的,即把
整个进程的虚拟地址空间划分为小的部分,同时把
内存也划分为小的部分,在虚拟地址空间和物理地
址空间之间建立特定的映射关系,进程的内容分批
分期进入内存中特定的位置,其余部分在外存中,
在需要的时候再传递到内存,用内存和外存的统一
管理来实现内存扩充。

----------------------- Page 71-----------------------

在虚拟存储技术的发展过程中,使用了不同的地址空
间划分方法和映射关系,这些不同的划分和映射对
应于不同的存储管理方式,本节介绍几种能够实现
虚拟存储的地址空间划分方式。

3.2.1 页

把进程的虚拟地址空间划分为相等大小的部分,每个
部分称为页(page),同时把物理内存空间也按照
页的大小划分为小的部分,称为页面(page
frame,也称为页架或页框)。对于80386体系,页
和页面的大小都为4K字节。

----------------------- Page 72-----------------------

在页和页面之间建立一一映射关系,连续的一维虚拟
地址空间可以分别存放在不同物理空间中,因此,
物理存储中,每个页面内部地址连续,而页面之间
的地址可以是不连续的。页和页面之间的映射关系
记录在一个表格中,这样的表称为页表。每一个进
程使用惟一的页表,页表的每一项数据称为页表
项,表示虚拟空间中某一页和实际物理空间中某一
页面的对应关系,页表也存储在物理空间内,

如图
3.1所示。

----------------------- Page 73-----------------------

图3.1 页式管理:页表(左)及相应的页、页面对应关
系(右)示意图

----------------------- Page 74-----------------------

从上图可以看出,连续的一维虚拟空间经过变换,映
射到物理空间中不连续的页面中。利用分页机制实
现虚拟存储管理称为页式存储管理。管理过程中,
内外存的数据传递是以页为单位。页式管理采用请
求调页或者预调页技术实现内外存的统一管理,内
存中同时只存放少量经常执行或者即将执行的页,
而其他不经常使用或暂时不会执行的页,存放在外
存中,等需要的时候再调入内存。
利用分页技术将一维连续虚拟空间划分为一个个页,
进程的虚拟地址由两个部分组成:页号P和页内地
址(偏移量)W。这两个部分的虚拟地址经过地址
变换后,映射到物理内存的对应单元。具体的地址
变换过程如图3.2所示。

----------------------- Page 75-----------------------

图3.2 页式内存管理地址变换示意图

----------------------- Page 76-----------------------

操作系统为每一个进程维护一个独立的页表,进程正
在执行的时候,页表信息记录在页表控制寄存器
中,系统根据寄存器的值得到该进程对应页表的地
址,同时利用页号,就可以得到该页对应的页表
项。查找页表,获得了页表所映射的页面号,由页
面号和页内地址,就可以直接找到内存中的对应存
储单元。
在整个变换过程中,需要两次访问物理内存,第一次
是查找页表,第二次是获取数据。为了提高效率,
硬件一般提供一个高速的联想寄存器,构成一个快
表(translation lookaside buffer),把当前进程中
经常使用的页表项放在快表中,地址变换过程中,
首先访问快表,如果该页表项存在于快表中,就

----------------------- Page 77-----------------------

可以直接得到对应的页面号,如果不在快表中,再
去查找页表得到页面号,快表的访问速度要比内存
快得多,这样就可以提高内存的访问速度。
采用页式管理,实现了进程的程序和数据非连续存
放,对内存和外存统一管理,得到更大的虚拟存储
空间,可以同时容纳和运行更多的进程,有利于系
统整体性能的提高。缺点是增加了系统开销,而且
需要一定的硬件支持。由于虚拟空间是连续的,整
个进程按照一维地址顺序排列,同一个程序段在分
页的过程中,可能分别位于不同的页中,代码和数
据的共享比较困难。

--

--------------------- Page 78-----------------------

3.2.2 段
段式管理的基本思想是把整个程序按照逻辑结构划分
为不同的段,每个段可以是一个函数(过程)或者
数据,有自己的名称,段大小是不相等的,段与段
之间不存在顺序关系。这样,进程具有一个二维的
虚拟空间。
内存的管理以段为单位,把正在执行的段放在内存
中,其他段暂时放在外存中,当需要执行时再传递
到内存中。这样,也可以实现大容量的虚拟存储
器。

----------------------- Page 79-----------------------

段式管理中,进程的虚拟地址是二维的,由段号和段
内偏移地址构成。与页式管理的区别在于,段号是
不连续的,段的大小是可变的。在二维虚拟空间与
物理空间之间需要建立一一映射关系,即地址
变换,这种变换关系记录在一个称为段表的表格
中,系统为每一个进程维护一张段表,通过查找段
表,就可以得到虚拟地址所对应的物理单元。
段式存储管理的优点在于使用了大小可变的虚拟地址
空间划分方法,按照程序的固有逻辑关系来分段,
便于进程之间存储共享。但是,地址变换关系更为
复杂,需要更多的硬件支持,实现起来更为麻烦,
同时也带来了更大的系统开销。

----------------------- Page 80-----------------------

3.2.3 段页
段页式存储管理,综合利用段式和页式管理的思想,
把整个二维虚拟空间先分段,然后在段内分页。以
页为最小的存储管理单位来实现虚拟存储。一方面
可以按照程序的逻辑关系来划分进程空间的段,另
一方面使用页来存放每一个段的内容,内外存交换
以统一格式和大小的页来进行。
这种管理模式下,虚拟地址要包括三个部分:段号、
页号和页内偏移地址,地址变换也要经过两层次映
射才能够实现,首先从二维虚拟空间映射到一个线
性虚拟空间,然后再从线性空间映射到物理空间。
可以想象,整个变换过程更为复杂,需要大量的硬
件支持和系统开销。

----------------------- Page 81-----------------------

3.3 80386段页机制

上一节,我们介绍了不同的存储管理方法:页式、段
式和段页式。这些方法的依据都是局部性原理,区
别在于存储空间的划分和映射方法。这些管理方法
都需要一定的硬件支持。本节,针对Linux系统的
主要平台之一Intel 80386 (简称I386)系统,介绍
该系统的段页式硬件支持机制。

----------------------- Page 82-----------------------

3.3.1 实模式与保护模

相关文档
相关文档 最新文档