当前位置：文档库 › 计算机系统结构课后答案(1)

计算机系统结构课后答案(1)

第四章课后题

1、设二级虚拟存储器的TA1=10^(-7)s、TA2=10^(-2)s,为使存储层次的访问效率e达到最大值的80%以上，命中率H至少要求达到多少实际上这样高的命中率是很难达到的，那么从存储层次上如何改进

解：∵e=1/[H+(1-H)r] 且 r=TA2/TA1 ∴H至少达到%

这样的命中率很难达到，可在二级存储器间加一层电子磁盘，降低r，从而降低对H的要求。

2、程序存放在模32单字交叉存储器中，设访存申请队的转移概率λ为25%,求每个存储周期能访问到的平均字数。当模数为16呢由此你可得到什么结论解：B=[ 1-(1-λ)^m] /λ

由λ=,m=32 求得：B=4-4*(3/4)^32=4

同理，m=16时 ,B=4-4*(3/4)^16=

由此可看出，当转移概率λ为25%比较大时，采用模32与模16的每个存储周期能访问的平均字数非常相近。就是说，此时，提高模数m对提高主存实际频宽已不显著。实际上，模数m的进一步增大，会因工程实现上的问题，导致实际性能反而可能比模16的还要低，且价格更高。所以模数m不宜太大。对于λ为2 5%的情况，可以计算机出m=8时，其B已经接近于了。

3、设主存每个分体的存取周期为2μs，宽度为4个字节。采用模m多分体交叉存取，但实际频宽只能达到最大频宽的倍。现要求主存实际频宽为4MB/S,问主存模数m应取多少方能使两者速度基本适配其中m取2的幂。

解：由题意已知存取周期Tm=2*10^(-6)s,宽度W=4B,B实==4*2^20B/S,

Bm=W*m/Tm=*10^6B/S

m=Bm*Tm/W=*10^6*2*10^-6/4=

所以m取4能满足要求

①微秒（百万分之一秒) 1μs=10^-6s

②计量单位中的M(兆)是10的6次方，见到M自然想起要在该数值的后边续上六个0，即扩大一百万倍。在二进制中，MB也表示到了百万级的数量级，但1MB

不正好等于1000000字节，而是1048576字节，即 1MB = 2E+20 Bytes = 1048 576Bytes。

4、某虚拟存储器共8个页面，每页1024个字，实际主存为4096个字，采用页表法进行地址映象。映象表的内容如下表1所示。

实页号装入位

3 1

1 1

2 0

3 0

2 1

1 0

0 1

0 0

表1

虚页号实页号装入位

0 3 1

1 1 1

2 2 0

3 3 0

4 2 1

5 1 0

6 0 1

7 0 0

表2

(1)列出会发生页面失效的全部虚页号；

解：根据页表法列出表2，当装入位为0时，即为页面失效，再找出相对应的虚页号即可。

会发生页面失效的全部虚页号为：2,3,5,7

(2)按以下虚地址计算主存实地址：0，3728，1023，1024，2055，7800，4096，6800。

解：虚页号=│_虚地址/页面大小_│

实地址＝(实页号*页面大小)＋(虚地址－虚页号*页面大小)

虚地址 0 3728 1023 1024 2055 7800 4096 6800

虚页号 0 3 0 1 2 7 4 6

实页号 3 3 3 1 2 0 2 0

装入位 1 0 1 1 0 0 1 1

实地址 3072 3728 4095 1024 2055 632 2048 656

5、一个段页式虚拟存储器。虚地址有2位段号、2位页号、11位页内位移（按字编址），主存容量为32K字。每段可有访问方式保护，其页表和保护位如下表所示。

(1) 此地址空间中共有多少个虚页

解：2Nv页，而Nv=用户虚页号=段号S+页号P

此地址空间中共有2^Nv=2^(2+2)=16个虚页

6、设某程序包含5个虚页，其页地址为4，5，3，2，5，1，3，2，2，5，1，3。当使用LRU算法替

换时，为获得最高命中率，至少应分配给该程序几个实页其可能的最高命中率为多少

7.采用页式管理的虚拟存储器，分时运行两道程序。其中，程序X为

DO 50 I=1,3

B(I)=A(I)-C(I)

IF(B(I)·LE·0)GOTO 40

D(I)=2*C(I)-A(I)

IF(D(I)·EQ·0)GOTO 50

40 E(I)=0

50 CONTINUE

Data: A=(-4,+2,0)

C=(-3,0,+1)

每个数组分别放在不同的页面中;而程序Y在运行过程中，其数组将依次用到程序空间的第3,5,4,2,5,3,1,3,2,5,1,3,1,5,2页。如果采用LRU算法，实存却只有8页位置可供存放数组之用。试问为这两首程序的数组分别分配多少个实页最为合适为什么

解答：

分别分配给程序X和Y的数组4个实页最为合适。

根据题意，程序X依次调用数组A,C,B,B,E, A,C,B,B,C,A,D,D,E, A,C,B,B,E

中的数据。

设程序X中的数组A,B,C,D,E分别存放于程序空间的第1,2,3,4,5页，则程序的页地址流为：1，3，2，2，5， 1，3，2，2，3，1，4，4，5， 1，3，2，2，5。

分析使用LRU算法对程序X的页地址流进行堆栈处理的过程可知，分配给程序X 的数组5个实页最为合适;分析使用LRU算法对程序Y的页地址流进行堆栈处理的过程可知，分配给程序Y的数组4个实页最为合适。

但实存只有8页位置可供存放数组之用，所以，分别分配给程序X和Y的数组4个实页。

note:

分时运行在微观上是串行的，就是说，分时运行时把时间划分为若干时间片，每个程序轮流占用时间片;在宏观上是并行的，就是说，每个程序在一个时间片内并不能运行完。总的来看，是同时运行的，所以两个程序分配的实页和不能大于8。

参考：上面的FORTRAN源代码转成C后

main()

{

int A[]={-4,2,0};

int C[]={-3,0,1};

for (i=0,i<3,i++)

{B[i]=A[i]-C[i];

if (B[i]<0)

E[i]=0;

else

{D[i]=2*C[i]-A[i];

if (D[i]<>0)

E[i]=0;

};

}

8.设一个按位编址的虚拟存储器，它应可对应1K个任务，但在一段较长时间内，一般只有4个任务在使用，故用容量为4行的相联寄存器组硬件来缩短被变换的虚地址中的用户位位数；每个任务的程序空间最大可达4096页，每页为512个字节，实主存容量为2＾20位；设快表用按地址访问存储器构成，行数为32，快表的地址是经散列形成；为减少散列冲突，配有两套独立相等比较电路。请设计该地址变换机构，内容包括：

(1)画出其虚、实地址经快表变换之逻辑结构示意图；

(2)相联寄存器组中每个寄存器的相联比较位数；

(3)相联寄存器组中每个寄存器的总位数；

(4)散列变换硬件的输入位数和输出位数；

(5)每个相等比较器的位数；

(6)快表的总容量（以位为单位）。

解:

(1)依题意得知：

虚地址为34位，其中用户号为10位（对应1K的任务）、虚页号12位（每个任务4096页）、页内位移12位（每页512字节，512字节=512*8=1024*4=2^12）

实地址为20位，其中实页号8位，页内位移12位（与虚页页内位移对应）

相联寄存器的作用：把10位的用户号转换为2位的ID（因为一般只有4个任务在使用），并把ID与虚地址的虚页号合并到快表中查实页号。

快表的作用：相当于页表，即虚页号对实页号的对应关系。但又有所简化（原因是如果用用户号和虚页号与实页号对应，前者就有22位，现改进后虚页号只有14位了）

(2)相联寄存器组中每个寄存器的相联比较位数为10（与虚地址中的用户号宽度对应）

(3)相联寄存器组中每个寄存器的总数为12（用户号宽度+ID宽度）

(4)散列变换硬件的输入位数为14位（虚页号宽度+相联寄存器中ID的宽度），输出位数为8位（与主存中的实页号宽度对应）

(5)每个相等比较器的位数=ID+用户虚页号nv'=2+12=14(位)。

(6)快表的总容量：32行*（14(输入位数)+8（输出位数））*2=32*22*2

9.考虑一个920个字的程序，其访问虚存的地址流为20，22，208，214，14 6，618，370，490，492，868，916，728。

(1)若页面大小为200字，主存容量为400字，采用FIFO替换算法，请按访存的各个时刻，写出其虚页地址流，计算主存的命中率；

(2)若页面大小为100字，再做一遍；

(3)若页面大小为400字，再做一遍；

(4)由(1)、(2)、(3)的结果可得出什么结论

(5)若把主存容量增加到800字，按第(1)小题再做一遍，又可得出什么结论解：

(1)主存容量400字，页面大小200字，所以主存实页数为2；

把地址流转换为页地址流，以第一个虚地址流转换为页地址流为例说明：求模公

式为：INT（地址/页面大小），就是把地址整除于页面大小，得INT（20/200）=0，下同，所以页地址流为：0,0,1,1,0,3,1,2,2,4,4,3

按FIFO算法得出替换过程为：0（调入），0（命中），1（调入），1（命中），0（命中），3（替换0，0比1先入队，所以被替换，下同），1（命中），2（替换1），2（命中），4（替换3），4（命中），3（替换2），所以总共命中6次。

故命中率H=6/12=50%

(2)方法同（1）H=25%

(3)H=50%

(4)由以上结论可得，FIFO算法的条件下，当页面大小发生变化时，其命中率变化是：一开始随页面大小增大命中率（第一步与第二步比较），但当页面大小增到一定时，命中率不再增加（第一步与第三步比较）。

(5)命中率为58%，结论是如果分配给主存容量增加时可以搞高命中率。

10. 在一个页式二级虚拟存储器中，采用FIFO算法进行页面替换，发现命中率H太低，因此有下列建议：

(1)增大辅存容量;

(2)增大主存容量(页数);

(3)FIFO改为LRU;

(4)FIFO改为LRU，并增大主存容量(页数);

(5)FIFO改为LRU，并增大页面大小。

试分析上述各建议对命中率的影响情况。

解答：

(1)增大辅存容量，对命中率H无影响。

(2)增大主存容量(页数)，可普遍提高命中率。

(3)FIFO改为LRU，一般可提高命中率。

(4)FIFO改为LRU，并增大主存容量(页数)，一般可使命中率有较大提高。

(5)FIFO改为LRU，并增大页面大小，如果原来页面很小，则会使命中率显著上升，如果原来页面很大，则会使命中率下降。

11.采用组相联映象的Cache存储器，Cache为1KB，要求Cache的每一块在一个主存周期内能从主存取得。主存模4交叉，每个分体宽为32位，总容量为256KB。用按地址访问存储器构成相联目录表实现主存地址到Cache地址的变换，并约定用4个外相等比较电路。请设计此相联目录表，求出该表之行数、总位数及每个比较电路的位数。

解答：

设Cache地址中的组内块号为s，相联目录表的行数是2^(13-s)，总位数是(8+ 2s)*2^(15-s)，每个比较电路的位数为8+s。

剖析：

在一个主存周期内主存能访问到的字节数为mW=4*32/8=16(Byte)。要求Cache 的每一块在一个主存周期内能从主存取得，所以，Cache中每块的块内字数不能大于16Bytes。为了加速调块，一般让每块的大小等于在一个主存周期内主存能访问到的字数，即16Bytes。

设Cache地址中的组内块号为s，相联目录表的行数=Cache地址内的组数Q=Cac he容量/(每组块数*每块大小)=1KB/(S*4*32)=2^13/(2^s*2^7)=2^(6-s)。

主存块数/Cache块数=256=2*8，所以，主存地址中的区号nd=8。每个比较电路的位数=nd+s'=nd+s=8+s。

相联目录表的总位数=表中子目录表的个数*每个子目录表的位数*相联目录表的行数=4*(nd+s'+s)*Q=4*(8+2s)*2^(6-s)=(8+2s)*2^(8-s)。

note：

若认为相等比较电路的个数=组内块数，则相联目录表的行数=2^4，每个比较电路的位数=10，相联目录表的总位数=12*2^6。

12.有一个Cache存储器。主存共分8个块(0~7),Cache为4个块(0~3),采用组相联映象，组内块数为2块，替换算法为近期最少使用算法(LRU)。

(1)画出主存、Cache地址的各字段对应关系(标出位数)图;

(2)画出主存、Cache空间块的映象对应关系示意图;

(3)对于如下主存块地址流：1,2,4,1,3,7,0,1,2,5,4,6,4,7,2,如主存中内容一开始未装入Cache中，请列出Cache中各块随时间的使用状况;

(4)对于(3),指出块失效又发生块争用的时刻;

(5)对于(3),求出此期间Cache的命中率。

解答：

(1)主存地址、Cache地址的各字段的位数及其对应关系如下图所示

(2)主存块、Cache块的映象对应关系如下图所示

(3)Cache中各块随时间的使用状况如下图所示。图中标*号的是候选替换块的块号，H：命中;R：替换;L：失效。

(4)发生块失效又发生块争用的时刻有6、7、9、10、11、12、14、15。

(5)Cache的块命中率Hc=3/15=。

剖析：

由于主存块、Cache块之间存在上述的映象对应关系，主存的第0、1、4、5块只能映象装入或替换物理Cache的第0、1块;主存的第2、3、6、7块只能映象装入或替换物理Cache的第2、3块。

13.采用组相联映象，LRU替换算法的Cache存储器，发现等效访问速度不高，为此建议：

(1)增大主存容量;

(2)增大Cache的块数(块的大小不变);

(3)增大组相联组的大小(块的大小不变);

(4)增大块的大小(组的大小和Cache总容量不变);

(5)提高Cache本身器件的访问速度。

解答：

(1)增大主存容量对Cache的访问时间ta基本不影响，从而对Cache的等效访问速度基本不影响。

(2)增大Cache的块数(块的大小不变)一般将使Cache的命中率Hc上升，从而使ta下降，从而提高Cache的等效访问速度。

(3)增大组相联组的大小(块的大小不变)一般将使Cache的命中率Hc上升，从而使ta下降，从而提高Cache的等效访问速度。

(4)增大块的大小(组的大小和Cache总容量不变)一般将使ta下降，从而提高C ache的等效访问速度。

(5)提高Cache本身器件的访问速度一般将缩短ta，从而提高Cache的等效访问速度。

14.你对Cache存储器的速度不满，于是申请到一批有限的经费，为能发挥其最大经济效益，有人建议你再买一些同样速度的Cache片子以扩充其容量;而另有人建议你干脆去买更高速的Cache片子将现有的低速Cache片子全部换掉。你认为哪种建议可取你如何做决定为什么

解答：

Cache本身的速度与容量都会影响Cache存储器的等效访问速度。如果对Cache 存储器的等效访问速度不满，需要改进的话，就要作具体分析，看看现在Cache 存储器的等效访问速度是否已接近于Cache本身的速度。如果差得较远，说明C ache的命中率低，应从提高Cache命中率着手，包括调整组的大小、块的大小、替换算法以及增大Cache容量等。如果Cache存储器的等效访问速度已经非常接近于Cache本身的速度还不能满足需要，就应该更换更高速的Cache片子。

000

下面

计算机系统结构课后答案

1、数据结构和机器的数据表示之间是什么关系？确定和引入数据表示的基本原则是什么？答：数据表示是能由硬件直接识别和引用的数据类型。数据结构反映各种数据元素或信息单元之间的结构关系。数据结构要通过软件映象变换成机器所具有的各种数据表示实现，所以数据表示是数据结构的组成元素。不同的数据表示可为数据结构的实现提供不同的支持，表现在实现效率和方便性不同。数据表示和数据结构是软件、硬件的交界面。除基本数据表示不可少外，高级数据表示的引入遵循以下原则：（1）看系统的效率有否提高，是否养活了实现时间和存储空间。（2）看引入这种数据表示后，其通用性和利用率是否高。 2、标志符数据表示与描述符数据表示有何区别？描述符数据表示与向量数据表示对向量数据结构所提供的支持有什么不同？答：标志符数据表示指将数据类型与数据本身直接联系在一起，让机器中每个数所都带类型樗位。其优点是：（1）简化了指令系统和程序设计；（2）简化了编译程序；（3）便于实现一致性校验；（4）能由硬件自动变换数据类型；（5）支持数据库系统的实现与数据类型无关；（6）为软件调试和应用软件开发提供支持。缺点是：（1）会增加程序所点的主存空间；（2）在微观上对机器的性能（运算速度）不利。数据描述符指数据的描述与数据分开存放，描述所访问的数据是整块还是单个的，及访问该数据块或数据元素的地址住处它具备标志符数据表示的优点，并减少了标志符数据表示所占的空间，为向量和数组结构的实现提供支持。数据描述符方法优于标志符数据表示，数据的描述与数据分开，描述所访问的数据是整块还是单个的，及访问该数据块或数据元素的地址信息，减少了樗符数据表示所占的窨。用描述符方法实现阵列数据的索引比用变址方法实现要方便，且便于检查出程序中的阵列越界错误。但它不能解决向量和数组的高速运算问题。而在有向量、数组数据表示的向量处理机上，硬件上设置有丰富的赂量或阵列运算指令，配有流水或阵列方式处理的高速运算器，不仅能快速形成向量、数组的元素地址，更重要的是便于实现把向量各元素成块预取到中央处理机，用一条向量、数组指令流水或同时对整个向量、数组高速处理．如让硬件越界判断与元素运算并行。这些比起用与向量、阵列无关的机器语言和数据表示串行实现要高效的多。 3、堆栈型机器与通用寄存器型机器的主要区别是什么？堆栈型机器系统结构为程序调用的哪些操作提供了支持？答：有堆栈数据表示的机器称为堆栈机器。它与一般通用寄存器型机器不同。通用寄存器型

北邮高级计算机系统结构实验二三四五

实验二指令流水线相关性分析 ·实验目的通过使用WINDLX模拟器，对程序中的三种相关现象进行观察，并对使用专用通路，增加运算部件等技术对性能的影响进行考察，加深对流水线和RISC处理器的特点的理解。 ·实验原理：指令流水线中主要有结构相关、数据相关、控制相关。相关影响流水线性能。·实验步骤一．使用WinDLX模拟器，对做如下分析：（1）观察程序中出现的数据/控制/结构相关。指出程序中出现上述现象的指令组合。（2）考察增加浮点运算部件对性能的影响。（3）考察增加forward部件对性能的影响。（4）观察转移指令在转移成功和转移不成功时候的流水线开销。 ·实验过程一．使用WinDLX模拟器，对做如下分析： } 浮点加、乘、除部件都设置为1，浮点数运算部件的延时都设置为4，如图1：图1 初始设置将和加载至WinDLX中，如图2示。

图2 加载程序 1.观察程序中出现的数据/控制/结构相关；指出程序中出现上述现象的指令组合。 1）数据相关点击F7，使程序单步执行，当出现R-Stall时停止，运行过程中出现下图3所示，输入整数6。图3 输入整数6 @ 打开Clock Diagram，可以清楚的看到指令执行的流水线如图4所示。图4 指令流水线双击第一次出现R-Stall的指令行，如图5所示。

图5 指令详细信息对以上出现的情况分析如下：程序发生了数据相关，R-Stall（R-暂停）表示引起暂停的原因是RAW。 lbu r3,0×0(r2) 要在WB周期写回r3中的数据；而下一条指令 & seqi r5,r3,0×a 要在intEX周期中读取r3中的数据。上述过程发生了WR冲突，即写读相关。为了避免此类冲突， seq r5,r4,0×a的intEX指令延迟了一个周期进行。由此，相关指令为： 2）控制相关由图6可以看出，在第4时钟周期：第一条指令处于MEM段，第二条命令处于intEX段，第三条指令出于aborted状态，第四条命令处于IF段。图 6 指令流水线 }

计算机系统结构考试计算题

3.12 有一指令流水线如下所示（1）求连续输入10条指令，该流水线的实际吞吐率和效率；（2）该流水线的“瓶颈”在哪一段？请采取两种不同的措施消除此“瓶颈”。对于你所给出的两种新的流水线，连续输入10条指令时，其实际吞吐率和效率各是多少？解：（1） 2200(ns)2009200)10050(50t )1n (t T max m 1 i i pipeline =?++++=?-+?=∑= )(ns 220 1 T n T P 1pipeline -== 45.45%11 5 4400T P m t T P E m 1 i i ≈=? =?? =∑= （2）瓶颈在3、4段。 ? 变成八级流水线（细分） 850(ns)509850t 1)(n t T max m 1 i i pipeline =?+?=?-+?=∑= )(ns 85 1 T n T P 1pipeline -== 58.82%17 10 8400T P m ti T P E m 1 i ≈=? =?? =∑= ? 重复设置部件出 50ns 50ns 100ns 200ns

)(ns 85 1 T n T P 1pipeline -== 58.82%17 10885010400E ≈=??= 3.13 4段组成，3段时，一次，然4段。如果需要的时间都是，问：（1）当在流水线的输入端连续地每时间输入任务时，该流水线会发生什么情况？（2）此流水线的最大吞吐率为多少？如果每输入一个任务，连续处理 10个任务时的实际吞吐率和效率是多少？（3）当每段时间不变时，如何提高该流水线的吞吐率？仍连续处理10个任务时，其吞吐率提高多少？（2） t ?t ?2

计算机系统结构课后答案unit3

第3章总线、中断与输入输出系统 3.1．简要举出集中式串行链接，定时查询和独立请求3种总线控制方式的优缺点。同时分析硬件产生故障时通讯的可靠性。答：集中式串行链连接方式。其过程为： ①所有部件都经公共的“总线请求”线向总线控制器发使用总线申请。 ②当“总线忙”信号未建立时，“总线请求”才被总线控制器响应，送出“总线可用”信号，它串行地通过每个部件。 ③如果某部件未发过“总线请求”，则它将“总线可用”信号往下一部件转，如果某部件发过“总线请求”，则停止“总线可用”信号的传送。 ④该部件建立“总线忙”，并除去“总线请求”，此时该部件获得总线使用权，准备传送数据。 ⑤数据传送期间，“总线忙”维持“总线可用”的建立。 ⑥传送完成后，该部件去除“总线忙”信号和“总线可用”信号。 ⑦当“总线请求”再次建立时，就开始新的总线分配过程。优点：①选择算法简单；②控制总线数少；③可扩充性好；④可靠性高。缺点：①对“总线可用”线及其有关电路失效敏感，②不灵活；③总线中信号传送速度慢。集中式定时查询方式，过程： ①总线上每个部件通过“总线请求”发请求。 ②若“总线忙”信号未建立，则计数器开始计数，定时查询个部件，以确定是谁发的请求。 ③当查询线上的计数值与发出请求的部件号一致时，该部件建立“总线忙”，计数停止，查询也停止。除去“总线请求”，该部件获得总线使用权。 ④“总线忙”维持到数据传送完毕。 ⑤数据传送完，去除“总线忙”。 ⑥当“总线请求”线上有新的请求，就开始下一个总线分配过程。优点：①优先次序灵活性强；②可靠性高。缺点：①控制线数较多；②扩展性较差；③控制较为复杂；④总线分配受限于计数信号，不能很高。集中式独立请求方式，过程：

计算机体系结构实验报告二

实验二结构相关一、实验目得: 通过本实验,加深对结构相关得理解,了解结构相关对CPU性能得影响。二、实验内容: 1、用WinDLX模拟器运行程序structure_d、s 。 2、通过模拟,找出存在结构相关得指令对以及导致结构相关得部件。 3、记录由结构相关引起得暂停时钟周期数,计算暂停时钟周期数占总执行周期数得百分比。 4、论述结构相关对CPU性能得影响,讨论解决结构相关得方法。三、实验程序structure_d、s LHI R2, (A>>16)&0xFFFF 数据相关 ADDUI R2, R2, A&0xFFFF LHI R3, (B>>16)&0xFFFF ADDUI R3, R3, B&0xFFFF ADDU R4, R0, R3 loop: LD F0, 0(R2) LD F4, 0(R3) ADDD F0, F0, F4 ;浮点运算,两个周期,结构相关 ADDD F2, F0, F2 ; < A stall is found (an example of how to answer your questions) ADDI R2, R2, #8 ADDI R3, R3, #8 SUB R5, R4, R2 BNEZ R5, loop ;条件跳转 TRAP #0 ;; Exit < this is a ment !! A: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 B: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 四、实验过程打开软件,load structure_d、s文件,进行单步运行。经过分析,此程序一次循环中共有五次结构相关。(Rstall 数据相关Stall 结构相关) 1)第一个结构相关:addd f2,,f0,f2 由于前面得数据相关,导致上一条指令addd f0,f0,f4暂停在ID阶段,所以下一条指令addd f2,,f0,f2发生结构相关,导致相关得部件:译码部件。

计算机组织与体系结构实验报告

《计算机组织与体系结构》实验报告学号： XXX 姓名：XXX 班级：XXX 指导教师：XXX 时间: 2013年01月中国矿业大学计算机学院

目录一基本运算器实验 (2) 1、实验目的 (2) 2、实验设备 (2) 3、实验原理 (2) 4、实验步骤 (3) 5、实验结果 (5) 5、实验体会 (5) 二微程序控制实验 (6) 1、实验目的 (6) 2、实验设备 (6) 3、实验原理 (6) 4、实验步骤 (12) 5、实验体会 (13) 三CPU与简单模型机设计实验 (13) 1、实验目的 (13) 2、实验设备 (13) 3、实验原理 (13) 4、实验步骤 (18) 5、实验流图 (21) 6、实验体会 (25)

实验一基本运算器实验 1. 实验目的 (1) 了解运算器的组成结构。 (2) 掌握运算器的工作原理。 2. 实验设备 PC机一台，TD-CMA实验系统一套。 3.实验原理本实验的原理如下图所示：运算器内部含有三个独立运算部件，分别为算术、逻辑和移位运算部件，要处理的数据存于暂存器A和暂存器B，三个部件同时接受来自A和B的数据（有些处理器体系结构把移位运算器放于算术和逻辑运算部件之前，如ARM），各部件对操作数进行何种运算由控制信号S3…S0和CN来决定，任何时候，多路选择开关只选择三部件中一个部件的结果作为ALU的输出。如果是影响进位的运算，还将置进位标志FC，在运算结果输出前，置ALU零标志。ALU中所有模块集成在一片FPGA中。逻辑运算部件由逻辑门构成，较为简单，而后面又有专门的算术运算部件设计实验，在此对这两个部件不再赘述。移位运算采用的是桶形移位器，一般采用交叉开关矩阵来实现，交叉开关的原理如图1-1-2所示。图中显示的是一个4X4的矩阵（系统中是一个8X8的矩阵）。每一个输入都通过开关与一个输出相连，把沿对角线的开关导通，就可实现移位功能，即： (1) 对于逻辑左移或逻辑右移功能，将一条对角线的开关导通，这将所有的输入位与所使用的输出分别相连,而没有同任何输入相连的则输出连接0。 (2) 对于循环右移功能，右移对角线同互补的左移对角线一起激活。例如，在4位矩阵中使用‘右1’和‘左3’对角线来实现右循环1位。 (3) 对于未连接的输出位，移位时使用符号扩展或是0填充，具体由相应的指令控制。使用另外的逻辑进行移位总量译码和符号判别。

计算机系统结构试卷B

《计算机系统结构B卷》一、填空题（每小题1.5分，共30分）。 1．对系列机而言，必须保证做到软件，力争做到软件向上兼容。 2．由软件实现的计算机称之为。 3. 多处理机系统按组织形式分有三种，功能分布是多处理机系统分工方式。 4．依据从哪一层开始设计，计算机体系结构设计的主要方法有三种，占据主导地位的是设计。 5. 在先行控制方式实现流水线的处理器中，有先行指令、先行操作、先行读数和后行写数等四个缓冲栈，缓冲深度最大的是。 6.按流水线的功能多寡分，可分为单功能流水线和。 7. 用于表示非线性流水线中的任务对未进入流水线的后继任务流入流水线的时间间隔的约束称为。 8.中断转移相关处理的基本方法包括不精确断点法和。 9. 互连网络中任意两个结点之间距离的最大值称为。 10．在多级交叉开关互联网络中，交叉开关的控制方式有、组控制和单元控制。 11. 在多计算机系统的互连网络中，通信模式包括、选播、广播和会议等四种。 12. 描述网络寻径效率常用的两个参数是通道流量和。 13．自定义数据表示包括标志符和两种数据表示。 14. 浮点数尾数基值越大，浮点数表示的数据范围。 15. 根据运算类型指令操作数存储方法不同，指令集结构可分为堆栈型、累加器型和。 16. 标量处理机是否高度并行是以指令级并行度（ILP）为来区分。 17．存储系统的基本存储层次有、主存储器和辅助存储器。 18. 采用并行存储器的目的是。 19. 从时间开销来看，伪命中的时间正常命中的时间。 20. 增加Cache存储系统的相联度，可降低Cache的不命中率，但会增加Cache 的。

二、简答题(每小题6分，共30分)。 1．多计算机系统和多处理机系统的差别有哪几方面？其中最根本的差别是哪个方面？ 2. 什么是流水线相关？流水线相关可分为哪几大类？ 3. 什么是动态互连网络？动态互连网络的互联形式有哪几种？ 4. 指令系统设计包括哪两个方面？指令格式优化设计的目的是什么？ 5. 维护Cache与主存一致性的更新算法有哪些? 三、分析题(第一小题8分，第二小题12分，共20分)。 1．某种处理机10条指令的使用频度分别为：0.25，0.20，0.15，0.10，0.08，0.08，0.05，0.04 ，0.03 ，0.02，试画出该处理机进行Huffman编码时的一棵Huffman树。 2. 在某采用全相联映象、相联目录表实现地址变换Cache存储器中，Cache 的容量是8KB，主存是由4个存储体组成的低位交叉访问存储器，主存总容量是32MB，每一个存储体的字长是32位，。（1）写出主存地址和Cache地址的格式，并标出各字段的长度。（2）说明目录表的行数、相联比较的位数和目录表的宽度。四、计算题(第一小题8分，第二小题12分，共20分)。 1. 设16个处理器编号分别为0、1、……、15，用单级互连网络连接，当互连函数分别为：（1）Cube3、（2）PM+3、（3）Shuffle（Shuffle）时，第13号处理器分别与哪一个处理器相连? 2. 有一条5个功能段的线性动态多功能流水线如图所示，其中1→2→3→5功能段组成加法流水线，1→4→5功能段组成乘法流水线，设每个功能段的延迟时间均相等为△t。用这条流水线计算F=4 1() i i i a b = + ∏，画出流水线时空图，并计算流水线的实际吞吐率、加速比和效率。 Z

完整版计算机体系结构课后习题原版答案_张晨曦著

第1章计算机系统结构的基本概念 (1) 第2章指令集结构的分类 (10) 第3章流水线技术 (15) 第4章指令级并行 (37) 第5章存储层次 (55) 第6章输入输出系统 (70) 第7章互连网络 (41) 第8章多处理机 (45) 第9章机群 (45) 第1章计算机系统结构的基本概念 1.1 解释下列术语层次机构：按照计算机语言从低级到高级的次序，把计算机系统按功能划分成多级层次结构，每一层以一种不同的语言为特征。这些层次依次为：微程序机器级，传统机器语言机器级，汇编语言机器级，高级语言机器级，应用语言机器级等。虚拟机：用软件实现的机器。翻译：先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序，然后再在这低一级机器上运行，实现程序的功能。

解释：对于高一级机器上的程序中的每一条语句或指令，都是转去执行低一级机器上的一段等效程序。执行完后，再去高一级机器取下一条语句或指令，再进行解释执行，如此反复，直到解释执行完整个程序。计算机系统结构：传统机器程序员所看到的计算机属性，即概念性结构与功能特性。在计算机技术中，把这种本来存在的事物或属性，但从某种角度看又好像不存在的概念称为透明性。计算机组成：计算机系统结构的逻辑实现，包含物理机器级中的数据流和控制流的组成以及逻辑设计等。计算机实现：计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，模块、插件、底板的划分与连接，信号传输，电源、冷却及整机装配技术等。系统加速比：对系统中某部分进行改进时，改进后系统性能提高的倍数。 Amdahl定律：当对一个系统中的某个部件进行改进后，所能获得的整个系统性能的提高，受限于该部件的执行时间占总执行时间的百分比。程序的局部性原理：程序执行时所访问的存储器地址不是随机分布的，而是相对地簇聚。包括时间局部性和空间局部性。

计算机系统结构期末考试题目

第一章： 1.计算机系统结构的定义答：由程序设计者看到的一个计算机系统的属性，即概念性结构和功能特性。 2.透明性概念答：在计算机技术中，一种本来是存在的事物或属性，但从某种角度看似乎不存在，称为透明性现象。 3.兼容性向后兼容兼容性：同一个软件可以不加修改地运行于系统结构相同的各档机器，可获得相同的结果，差别只在于不同的运行时间。向后兼容：按某个时期投入市场的某种型号机器编制的程序，不加修改就能运行于在它之后投入市场的机器。 4.Amdahl定律答：系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的使用频率或占总执行时间的比例有关。 5.CPI 答：每条指令的平均时钟周期数。 6.MIPS 答：每秒百万条指令数！MIPS=时钟频率/(CPI*10^6) 7.MFLOPS 答：每秒百万次浮点操作次数。MFLOPS=程序中的浮点操作次数/(执行时间*10^6) 8.命中率的概念答： 9.Flynn分类法是按指令流和数据流的多倍性特征进行计算机系统结构的划分答：①单指令流单数据流SISD ②单指令流多数据流SIMD ③多指令流单数据流MISD （实际不存在）④多指令流多数据流MIMD 10.计算机系统设计的定量原理（四个）答：①加快经常性事件的速度②Amdahl定律③CPU性能公式④访问的局部性原理11.CPI和加速比的计算答：CPI=CPU时钟周期数/IC CPU时间=CPU时钟周期数/频率 CPU时间=CPU时钟周期*时钟周期长加速比=（采用改进措施后的性能）/（没有采用改进措施前的性能） =(没有采用改进措施前执行某任务的时间)/(采用改进措施后执行某任务的时间) 12.软硬件实现的特点硬件实现：速度快、成本高；灵活性差、占用内存少软件实现：速度低、复制费用低；灵活性好、占用内存多 13.系统评价的标准 ①运算速度②存储器系统③其他性能④成本标准

计算机系统结构_课后答案

习题一 1、解释下列术语计算机系统的外特性：通常所讲的计算机系统结构的外特性是指机器语言程序员或编译程序编写者所看到的外特性，即由他们所看到的计算机的基本属性（概念性结构和功能特性）。计算机系统的内特性：计算机系统的设计人员所看到的基本属性，本质上是为了将有关软件人员的基本属性加以逻辑实现的基本属性。模拟：模拟方法是指用软件方法在一台现有的计算机上实现另一台计算机的指令系统。可移植性：在新型号机出台后，原来开发的软件仍能继续在升级换代的新型号机器上使用，这就要求软件具有可兼容性，即可移植性。可兼容性是指一个软件可不经修改或只需少量修改，便可由一台机器移植到另一台机器上运行，即同一软件可应用于不同环境。 Amdahl 定律：系统中对于某一部件采用某种更快的执行方式所能获得的系统性能改进程度，取决于这种执行方式被使用的频度或占总执行时间的比例。虚拟机（Virtual Machine ）：指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。 6、 7、假定求浮点数平方根的操作在某台机器上的一个基准测试程序中占总执行时间的20%，为了增强该操作的性能，可采用两种不同的方法：一种是增加专门的硬件，可使求浮点数平方根操作的速度提高为原来的20倍；另一种方法是提高所有浮点运算指令的速度，使其为原来的2倍，而浮点运算指令的执行时间在总执行时间中占30%。试比较这两种方法哪一种更好些。答：增加硬件的方法的加速比23.120 /2.0)2.01(1 1=+-= p S , 另一种方法的加速比176.12 /3.0)3.01(1 2=+-=p S ，经计算可知Sp1>Sp2第一种方法更好些。 9、假设高速缓存Cache 的工作速度为主存的5倍，且Cache 被访问命中的概率

计算机系统结构考试题库及答案

计算机系统结构试题及答案一、选择题（50分，每题2分，正确答案可能不只一个，可单选或复选） 1.（CPU周期、机器周期）是内存读取一条指令字的最短时间。 2.（多线程、多核）技术体现了计算机并行处理中的空间并行。 3.（冯?诺伊曼、存储程序）体系结构的计算机把程序及其操作数据一同存储在存储器里。 4.（计算机体系结构）是机器语言程序员所看到的传统机器级所具有的属性，其实质是确定计算机系统中软硬件的界面。 5.（控制器）的基本任务是按照程序所排的指令序列，从存储器取出指令操作码到控制器中，对指令操作码译码分析，执行指令操作。 6.（流水线）技术体现了计算机并行处理中的时间并行。 7.（数据流）是执行周期中从内存流向运算器的信息流。 8.（指令周期）是取出并执行一条指令的时间。 9.1958年开始出现的第二代计算机，使用（晶体管）作为电子器件。 10.1960年代中期开始出现的第三代计算机，使用（小规模集成电路、中规模集成电路）作为电子器件。 11.1970年代开始出现的第四代计算机，使用（大规模集成电路、超大规模集成电路）作为电子器件。 12.Cache存储器在产生替换时，可以采用以下替换算法：（LFU算法、 LRU算法、随机替换）。

13.Cache的功能由（硬件）实现，因而对程序员是透明的。 14.Cache是介于CPU和（主存、内存）之间的小容量存储器，能高速地向CPU提供指令和数据，从而加快程序的执行速度。 15.Cache由高速的（SRAM）组成。 16.CPU的基本功能包括（程序控制、操作控制、时间控制、数据加工）。 17.CPU的控制方式通常分为：（同步控制方式、异步控制方式、联合控制方式）反映了时序信号的定时方式。 18.CPU的联合控制方式的设计思想是：（在功能部件内部采用同步控制方式、在功能部件之间采用异步控制方式、在硬件实现允许的情况下，尽可能多地采用异步控制方式）。 19.CPU的同步控制方式有时又称为（固定时序控制方式、无应答控制方式）。 20.CPU的异步控制方式有时又称为（可变时序控制方式、应答控制方式）。 21.EPROM是指（光擦可编程只读存储器）。 22.MOS半导体存储器中，（DRAM）可大幅度提高集成度，但由于（刷新）操作，外围电路复杂，速度慢。 23.MOS半导体存储器中，（SRAM）的外围电路简单，速度（快），但其使用的器件多，集成度不高。 24.RISC的几个要素是（一个有限的简单的指令集、CPU配备大量的通用寄存器、强调对指令流水线的优化）。

计算机体系结构课后答案

计算机体系结构课后答案【篇一：计算机体系结构习题(含答案)】 1、尾数用补码、小数表示，阶码用移码、整数表示，尾数字长p=6（不包括符号位），阶码字长q=6（不包括符号位），为数基值rm=16，阶码基值re=2。对于规格化浮点数，用十进制表达式写出如下数据（对于前11项，还要写出16进值编码）。（1）最大尾数（8）最小正数（2）最小正尾数（9）最大负数（3）最小尾数（10）最小负数（4）最大负尾数（11）浮点零（5）最大阶码（12）表数精度（6）最小阶码（13）表数效率（7）最大正数（14）能表示的规格化浮点数个数 2．一台计算机系统要求浮点数的精度不低于10-7.2，表数范围正数不小于1038，且正、负数对称。尾数用原码、纯小数表示，阶码用移码、整数表示。 (1) 设计这种浮点数的格式 (2) 计算（1）所设计浮点数格式实际上能够表示的最大正数、最大负数、表数精度和表数效率。 3．某处理机要求浮点数在正数区的积累误差不大于2-p-1 ，其中，p是浮点数的尾数长度。 (1) 选择合适的舍入方法。

(2) 确定警戒位位数。 (3) 计算在正数区的误差范围。 4．假设有a和b两种不同类型的处理机，a处理机中的数据不带标志符，其指令字长和数据字长均为32位。b处理机的数据带有标志符，每个数据的字长增加至36位，其中有4位是标志符，它的指令数由最多256条减少到不到64条。如果每执行一条指令平均要访问两个操作数，每个存放在存储器中的操作数平均要被访问8次。对于一个由1000条指令组成的程序，分别计算这个程序在a处理机和b处理机中所占用的存储空间大小（包括指令和数据），从中得到什么启发？ 5．一台模型机共有7条指令，各指令的使用频率分别为35%，25%，20%，10%，5%，3%和2%，有8个通用数据寄存器，2个变址寄存器。 (1) 要求操作码的平均长度最短，请设计操作码的编码，并计算所设计操作码的平均长度。 6．某处理机的指令字长为16位，有双地址指令、单地址指令和零地址指令3类，并假设每个地址字段的长度均为6位。 (1) 如果双地址指令有15条，单地址指令和零地址指令的条数基本相同，问单地址指令和零地址指令各有多少条？并且为这3类指令分配操作码。 (2) 如果要求3类指令的比例大致为1：9：9，问双地址指令、单地址指令和零地址指令各有多少条？并且为这3类指令分配操作码。 7．别用变址寻址方式和间接寻址方式编写一个程序，求c=a+b，其中，a与b都是由n个元素组成的一维数组。比较两个程序，并回答下列问题： (1) 从程序的复杂程度看，哪一种寻址方式更好？

北邮计算机系统结构实验报告-实验一到五-WINDLX模拟器

北京邮电大学实验报告课程名称计算机系统结构计算机学院03班王陈(11)

目录实验一WINDLX模拟器安装及使用......................................... 错误!未定义书签。 ·实验准备................................................................................ 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验内容及要求.................................................................... 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验二指令流水线相关性分析 ............................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验三DLX处理器程序设计 .................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 A.向量加法代码及性能分析 ................................................... 错误!未定义书签。 B.双精度浮点加法求和代码及结果分析 .............................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验四代码优化 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结+实习体会........................................................... 错误!未定义书签。实验五循环展开 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。矩阵乘程序代码清单及注释说明........................................... 错误!未定义书签。相关性分析结果........................................................................... 错误!未定义书签。增加浮点运算部件对性能的影响........................................... 错误!未定义书签。增加forward部件对性能的影响 ............................................ 错误!未定义书签。转移指令在转移成功和转移不成功时候的流水线开销 .. 错误!未定义书签。 ·实验总结+实习体会+课程建议......................................... 错误!未定义书签。

计算机系统结构实验指导书-14

北京邮电大学计算机学院计算机系统结构实验指导书王春露邝坚编著 2007.3 – 2013.4

目录z计算机系统结构实验简介 z DLX处理器简介 1. 实验一WINDLX模拟器安装及使用 2. 实验二指令流水线相关性分析 3. 实验三DLX处理器程序设计 4. 实验四代码优化 5. 实验五循环展开（选作）

计算机系统结构实验简介 DLX是一个虚拟处理器。该处理器是加州大学伯克利分校计算机系JohnL .H ennessy教授和斯坦福大学计算机系David A. Patterson教授在其《计算机体系结构:一种定量的方法》一书中提出的。该处理器反映了新一代处理器的特点。通过了解DLX处理器的结构和工作原理，并利用DLX模拟器进行实验，可以帮助学生综合地了解和运用有关处理器指令系统的设计、流水线的设计与实现等方面的知识，有助于计算机系统结构课程内容的理解。 DLX处理器简介第一节 DLX基本结构 DLX是一种典型的Load/Store型指令集结构。它不仅体现了当今多种机器的指令集结构的共同特点，而且它还体现出未来一些机器的指令集结构的特点。这些机器的指令集结构设计思想都和DLX指令集结构的设计思想十分相似，它们都强调：（1）具有一套简单的Load/Store指令集；（2）注重指令流水效率；（3）简化指令的译码；（4）高效支持编译器。 DLX是一种易于学习和研究的处理器结构模型。这种类型的机器正在日趋流行，而且其结构非常易于理解。 1．DLX中的寄存器 DLX中有32个通用寄存器（GPRs），分别将其命名为R0,R1…R31。每个通用寄存器长度为32位。另外，DLX中有32个浮点寄存器（FPRs），分别将其命名为F0,F1…F31。每个浮点寄存器长度为32位。这些浮点寄存器可以用来保存32位的单精度浮点数，或者通过相邻两个浮点寄存器奇偶对FiFi+1（i=0,2,4…,30）来保存双精度浮点数，这种组合而成的64位双精度浮点寄存器在DLX中分别被命名为F0,F2…F28,F30. 2. DLX数据类型 DLX提供了多种长度的整型数据和浮点数据。对整型数据而言，有8位，16位，32位多种长度；对浮点而言，有32位单精度浮点数和64位双精度浮点数。浮点数据表示采用的是IEEE754标准。DLX操作都是对32位整型数据及32或64位浮点数据进行的。 3．DLX的寻址方式和数据传送 DLX提供了寄存器寻址，立即寻址，偏移寻址和寄存器间接寻址四种寻址方式。寄存器寻址字段的大小为5位，用来标识32个通用寄存器或浮点寄存器。

计算机系统结构期末考试试题及其答案

《计算机系统结构》期末考试试卷A 卷第 2 页共 24 页计算机科学系《计算机系统结构》期末考试试卷（A 卷） 2、此试卷适用于计算机科学与技术本科专业。一单选题：(10分，每题1分) 1、 ."启动I/O"指令是主要的输入输出指令，是属于（ B ） A.目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、输入输出系统硬件的功能对(B )是透明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、全相联地址映象是指（A ） A.任何虚页都可装入主存中任何实页的位置 B.一个虚页只装进固定的主存实页位置 C.组之间固定，组内任何虚页可装入任何实页位

置 D.组间可任意装入，组内是固定装入 4、( C ) 属于MIMD系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D.阵列处理机 5、多处理机上两个程序段之间若有先写后读的数据相关，则（B ） A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、计算机使用的语言是（B） A.专属软件范畴，与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D.属于符号化的机器指令 7、指令执行结果出现异常引起的中断是（C ） A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断《计算机系统结构》期末考试试卷A卷第 3 页共 24 页

计算机体系结构课后习题

第1章计算机系统结构的基本概念试用实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系。答：如在设计主存系统时，确定主存容量、编址方式、寻址范围等属于计算机系统结构。确定主存周期、逻辑上是否采用并行主存、逻辑设计等属于计算机组成。选择存储芯片类型、微组装技术、线路设计等属于计算机实现。计算机组成是计算机系统结构的逻辑实现。计算机实现是计算机组成的物理实现。一种体系结构可以有多种组成。一种组成可以有多种实现。计算机系统设计中经常使用的4个定量原理是什么？并说出它们的含义。答：（1）以经常性事件为重点。在计算机系统的设计中，对经常发生的情况，赋予它优先的处理权和资源使用权，以得到更多的总体上的改进。（2）Amdahl 定律。加快某部件执行速度所获得的系统性能加速比，受限于该部件在系统中所占的重要性。（3）CPU 性能公式。执行一个程序所需的CPU 时间 = IC ×CPI ×时钟周期时间。（4）程序的局部性原理。程序在执行时所访问地址的分布不是随机的，而是相对地簇聚。计算机系统中有三个部件可以改进，这三个部件的部件加速比为：部件加速比1=30；部件加速比2=20；部件加速比3=10 （1）如果部件1和部件2的可改进比例均为30%，那么当部件3的可改进比例为多少时，系统加速比才可以达到10？（2）如果三个部件的可改进比例分别为30%、30%和20%，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？解：（1）在多个部件可改进情况下，Amdahl 定理的扩展： ∑∑+-= i i i n S F F S )1(1 已知S 1＝30，S 2＝20，S 3＝10，S n ＝10，F 1＝，F 2＝，得：）（）（10/20/0.330/0.30.30.3-11 1033F F +++++= 得F 3＝，即部件3的可改进比例为36%。（2）设系统改进前的执行时间为T ，则3个部件改进前的执行时间为：（++）T = ，不可改进部分的执行时间为。已知3个部件改进后的加速比分别为S 1＝30，S 2＝20，S 3＝10，因此3个部件改进后的执行时间为： T T T T T n 045.010 2.020 3.0303.0'=++= 改进后整个系统的执行时间为：Tn = + = 那么系统中不可改进部分的执行时间在总执行时间中占的比例是： 82.0245.02.0=T T 假设某应用程序中有4类操作，通过改进，各操作获得不同的性能提高。具体数据如下表所示：操作类型程序中的数量（百万条指令）改进前的执行时间（周期）改进后的执行时间（周期）

计算机系统结构实验报告

计算机系统结构实验报告一．流水线中的相关实验目的： 1. 熟练掌握WinDLX模拟器的操作和使用，熟悉DLX指令集结构及其特点； 2. 加深对计算机流水线基本概念的理解； 3. 进一步了解DLX基本流水线各段的功能以及基本操作； 4. 加深对数据相关、结构相关的理解，了解这两类相关对CPU性能的影响； 5. 了解解决数据相关的方法，掌握如何使用定向技术来减少数据相关带来的暂停。实验平台： WinDLX模拟器实验内容和步骤： 1.用WinDLX模拟器执行下列三个程序：求阶乘程序fact.s 求最大公倍数程序gcm.s 求素数程序prim.s 分别以步进、连续、设置断点的方式运行程序，观察程序在流水线中的执行情况，观察 CPU中寄存器和存储器的内容。熟练掌握WinDLX的操作和使用。 2. 用WinDLX运行程序structure_d.s，通过模拟找出存在资源相关的指令对以及导致资源相关的部件；记录由资源相关引起的暂停时钟周期数，计算暂停时钟周期数占总执行周期数的百分比；论述资源相关对CPU性能的影响，讨论解决资源相关的方法。 3. 在不采用定向技术的情况下（去掉Configuration菜单中Enable Forwarding选项前的勾选符），用WinDLX运行程序data_d.s。记录数据相关引起的暂停时钟周期数以及程序执行的总时钟周期数，计算暂停时钟周期数占总执行周期数的百分比。在采用定向技术的情况下（勾选Enable Forwarding），用WinDLX再次运行程序data_d.s。重复上述3中的工作，并计算采用定向技术后性能提高的倍数。 1. 求阶乘程序用WinDLX模拟器执行求阶乘程序fact.s。这个程序说明浮点指令的使用。该程序从标准输入读入一个整数，求其阶乘，然后将结果输出。该程序中调用了input.s中的输入子程序，这个子程序用于读入正整数。实验结果：在载入fact.s和input.s之后，不设置任何断点运行。 a.不采用重新定向技术，我们得到的结果