当前位置：文档库 › (数学建模教材)7第七章对策论

(数学建模教材)7第七章对策论

第七章对策论

§1 引言

社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾，应用科学的方法来解决这样的问题开始于 17 世纪的科学家，如 C.，Huygens 和 W.，Leibnitz 等。现代对策论起源于 1944 年 J.，V on Neumann 和 O.，Morgenstern 的著作《Theory of Games and Economic Behavior 》。

对策论亦称竞赛论或博弈论。是研究具有斗争或竞争性质现象的数学理论和方法。一般认为，它既是现代数学的一个新分支，也是运筹学中的一个重要学科。对策论发展的历史并不长，但由于它所研究的现象与人们的政治、经济、军事活动乃至一般的日常生活等有着密切的联系，并且处理问题的方法又有明显特色。所以日益引起广泛的注意。

在日常生活中，经常看到一些具有相互之间斗争或竞争性质的行为。具有竞争或对抗性质的行为称为对策行为。在这类行为中。参加斗争或竞争的各方各自具有不同的目标和利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。对策论就是研究对策行为中斗争各方是否存在着最合理的行动方案，以及如何找到这个合理的行动方案的数学理论和方法。 §2 对策问题

对策问题的特征是参与者为利益相互冲突的各方，其结局不取决于其中任意一方的努力而是各方所采取的策略的综合结果。

先考察一个实际例子。

例 1（囚徒的困境）警察同时逮捕了两人并分开关押，逮捕的原因是他们持有大量伪币，警方怀疑他们伪造钱币，但没有找到充分证据，希望他们能自己供认，这两个人都知道：如果他们双方都不供认，将被以持有大量伪币罪被各判刑 18 个月；如果双方都供认伪造了钱币，将各被判刑 3 年；如果一方供认另一方不供认，则供认方将被从宽处理而免刑，但另一方面将被判刑 7 年。将嫌疑犯 A 、 B 被判刑的几种可能情况列于表 1。

表 1

表 1 中每对数字表示嫌疑犯 A 、B 被判刑的年数。如果两名疑犯均担心对方供认并希望受到最轻的惩罚，最保险的办法自然是承认制造了伪币。

从这一简单实例中可以看出对策现象中包含有的几个基本要素。 2.1 对策的基本要素

（i ）局中人在一个对策行为（或一局对策）中，有权决定自己行动方案的对策参加者，称为局中人。通常用 I 表示局中人的集合．如果有 n 个局中人，则 I = {1,2,L , n }。一般要求一个对策中至少要有两个局中人。在例 1 中，局中人是 A 、B 两名疑犯。

（ii ）策略集一局对策中，可供局中人选择的一个实际可行的完整的行动方案称为一个策略。参加对策的每一局中人 i ， i ∈ I ，都有自己的策略集 S i 。一般，每一局中人的策略集中至少应包括两个策略。

-154-

嫌疑犯 B

供认

不供认嫌疑犯 A

供认

不供认

（3，3）（0，7）（7，0）（1.5，1.5）

（iii ）赢得函数（支付函数）

在一局对策中，各局中人所选定的策略形成的策略组称为一个局势，即若 s i 是第 i 个局中人的一个策略，则 n 个局中人的策略组

s = (s 1 , s 2 ,L , s n )

就是一个局势。全体局势的集合 S 可用各局中人策略集的笛卡尔积表示，即

S = S 1 ? S 2 ?L ? S n

当局势出现后，对策的结果也就确定了。也就是说，对任一局势， s ∈ S ，局中人 i 可以得到一个赢得 H i (s ) 。显然， H i (s ) 是局势 s 的函数，称之为第 i 个局中人的赢得函数。这样，就得到一个向量赢得函数 H (s ) = (H 1 (s ),L , H n (s )) 。

本节我们只讨论有两名局中人的对策问题，其结果可以推广到一般的对策模型中去。

2.2 零和对策（矩阵对策）零和对策是一类特殊的对策问题。在这类对策中，只有两名局中人，每个局中人都

只有有限个策略可供选择。在任一纯局势下，两个局中人的赢得之和总是等于零，即双方的利益是激烈对抗的。

设局中人Ⅰ、Ⅱ的策略集分别为 S 1 = {α1 ,L ,αm }， S 2 = {β1 ,L , βn } 当局中人Ⅰ选定策略αi 和局中人Ⅱ选定策略 β j 后，就形成了一个局势 (αi , β j ) ，可见这样的局势共有 mn 个。对任一局势 (αi , β j ) ，记局中人Ⅰ的赢得值为 a ij ，并称

? a 11 'a a 12 a 1n / L

L L L

∞ a a A = ' 2n ∞ 21

' L ≤a m 1

L ∞ a mn ?

L a m 2 ' ∞ 为局中人Ⅰ的赢得矩阵（或为局中人Ⅱ的支付矩阵）。由于假定对策为零和的，故局中人Ⅱ的赢得矩阵就是 - A 。

当局中人Ⅰ、Ⅱ和策略集 S 1 、 S 2 及局中人Ⅰ的赢得矩阵 A 确定后，一个零和对策就给定了，零和对策又可称为矩阵对策并可简记成

G = {S 1 , S 2 ; A } 。

例 2

设有一矩阵对策 G = {S 1 , S 2 ; A } ，其中 S 1 = {α1 ,α2 ,α3} ，

S 2 = {β1 , β2 , β3 , β4 } ，

? 12 - 6 2 0 30 18 - 10

- 22/ ∞ A = ' 14 10 '

'≤- 6 ∞ 16 ∞?

从 A 中可以看出，若局中人Ⅰ希望获得最大赢利 30，需采取策略α1 ，但此时若局

中人Ⅱ采取策略 β4 ，局中人Ⅰ非但得不到 30，反而会失去 22。为了稳妥，双方都应考虑到对方有使自己损失最大的动机，在最坏的可能中争取最好的结果，局中人Ⅰ采取策略α1、α2、α3 时，最坏的赢得结果分别为

-155-

min{12,-6,30,-22} = -22 min{14,2,18,10} = 2 min{-6,0,-10,16} = -10

其中最好的可能为 max{-22,2,-10} = 2 。如果局中人Ⅰ采取策略 α2 ，无论局中人Ⅱ

采取什么策略，局中人Ⅰ的赢得均不会少于 2。

局中人Ⅱ采取各方案的最大损失为 max{12,14,-6} = 14 ， max{-6,2,0} = 2 ，

max{30,18,-10} = 30 ，和 max{-22,10,16} = 16 。当局中人Ⅱ采取策略 β2 时，其损

失不会超过 2。注意到在赢得矩阵中，2 既是所在行中的最小元素又是所在列中的最大元素。此时，只要对方不改变策略，任一局中人都不可能通过变换策略来增大赢得或减少损失，称这样的局势为对策的一个稳定点或稳定解。

定义 1 设 f ( x , y ) 为一个定义在 x ∈ A 及 y ∈ B 上的实值函数，如果存在 x *∈ A ，

y *∈ B ，使得对一切 x ∈ A 和 y ∈ B ，有

f ( x , y *) ≤ f ( x *, y *) ≤ f ( x *, y )

则称 ( x *, y *) 为函数 f 的一个鞍点。

定义 2 设 G = {S 1 , S 2 ; A } 为矩阵对策，其中 S 1 = {α1 ,α2 ,L ,αm } ， S 2 = {β1 , β2 ,L , βn }， A = (a ij )m ?n 。若等式

max min a ij = min max a ij = a i * j *

（1）

i j j i

成立，记V G = a i * j * ，则称V G 为对策 G 的值，称使（1）式成立的纯局势 (αi * , β j * )

为

对策 G 的鞍点或稳定解，赢得矩阵中与 (αi * , β j * ) 相对应的元素 a i * j * 称为赢得矩阵的鞍点，αi * 与 β j * 分别称为局中人Ⅰ与Ⅱ的最优纯策略。

给定一个对策 G ，如何判断它是否具有鞍点呢？为了回答这一问题，先引入下面

定理 1 设 G = {S 1, S 2 ; A } ，记 μ = max min a ij ， ν = - min max a ij ，则必有

μ +ν ≤ 0 。

证明 ν = max min(-a ij ) ，易见 μ 为Ⅰ的最小赢得，ν 为Ⅱ的最小赢得，由于 G j i

是零和对策，故 μ +ν ≤ 0 必成立。

定理 2 零和对策 G 具有稳定解的充要条件为 μ +ν = 0 。证明：（充分性）由 μ 和ν 的定义可知，存在一行例如 p 行，μ 为 p 行中的最小元素，且存在一列例如 q 列， -ν 为 q 列中的最大元素。故有

a pq ≥ μ 且 a pq ≤ -ν

又因 μ +ν = 0 ，所以 μ = -ν ，从而得出 a pq = μ ， a pq 为赢得矩阵的鞍点，(α p , βq ) 为 G 的稳定解。

（必要性）若 G 具有稳定解 (α p , βq ) ，则 a pq 为赢得矩阵的鞍点。故有

μ = max min ≥ min = a pq

a ij a pj i j

j -ν = min max ≤ max = a pq a ij a iq j i i

-156-

从而可得 μ +ν ≥ 0 ，但根据定理 1， μ +ν ≤ 0 必成立，故必有 μ +ν = 0 。

上述定理给出了对策问题有稳定解（简称为解）的充要条件。当对策问题有解时，其解可以不唯一，当解不唯一时，解之间的关系具有下面两条性质：

性质 1 无差别性。即若 (α , β ) 与 (α , β ) 是对策

G 的两个解，则必有 i 1 j 1 i 2 j 2 a i j 1 1 = a i j 。 2 2

性质 2 可交换性。即若 (α , β ) 和 (α , β ) 是对策 G 的两个解，则 (α , β ) 和

i 1 j 1 i 2 j 2 i 1 j 2 (α , β ) 也是解。

i 2 j 1 §3 零和对策的混合策略

具有稳定解的零和问题是一类特别简单的对策问题，它所对应的赢得矩阵存在鞍点，任一局中人都不可能通过自己单方面的努力来改进结果。然而，在实际遇到的零和对策中更典型的是 μ +ν ≠ 0 的情况。由于赢得矩阵中不存在鞍点，此时在只使用纯策略的范围内，对策问题无解。下面我们引进零和对策的混合策略。

设局中人Ⅰ用概率 x i 选用策略 αi ，局中人Ⅱ用概率 y j 选用策略 β j ，

∑ x i n

= ∑ y j

= 1 ，记 x = (x 1

,L , x ) ， y = ( y 1

,L , y n

)

，则局中人Ⅰ的期望赢得为

i =1

j =1

E (x , y ) = x T Ay 。

记

S ：策略

α1 ,L ,αm

S ：策略

β1 ,L , βn

1 2 x 1 ,L , x m

y 1 ,L , y n

概率概率

分别称 S *

与

S *

为局中人Ⅰ和Ⅱ的混合策略。 1 2 下面简单地记

S = {(x 1 ,L , x m ) | x i ≥ 0, i = 1,L , m ; ∑ x * T

= 1} ， 1

i i = 1

S = {(

y 1 ,L , y n ) | y j ≥ 0, j = 1,L , n ; ∑ y = 1} *

2 j j =1

定义 4 若存在 m 维概率向量 x 和 n 维概率向量 y ，使得对一切 m 维概率向量 x 和 n 维概率向量 y 有

x Ay = max x T Ay = min x Ay

x y

则称 (x , y ) 为混合策略对策问题的鞍点。

定理 3 设 x ∈ S

，

y ∈ S

，则

(x , y ) 为 G = {S , S ; A } 的解的充要条件是： 1 2 1 2

? n ?∑ a y ≤ x T

Ay , i = 1,2,L , m ij j ? j =1 ? m

?∑

a x ≥ x Ay , j = 1,2,L , n ?? i =1 ij i 定理 4 任意混合策略对策问题必存在鞍点，即必存在概率向量 x 和 y ，使得：

-157-

x T

Ay = max min x T Ay = min max x T Ay 。

使用纯策略的对策问题（具有稳定解的对策问题）可以看成使用混合策略的对策问题的特殊情况，相当于以概率 1 选取其中某一策略，以概率 0 选取其余策略。

例 3 A 、B 为作战双方， A 方拟派两架轰炸机Ⅰ和Ⅱ去轰炸 B 方的指挥部，轰炸机Ⅰ在前面飞行，Ⅱ随后。两架轰炸机中只有一架带有炸弹，而另一架仅为护航。轰炸机飞至 B 方上空，受到 B 方战斗机的阻击。若战斗机阻击后面的轰炸机Ⅱ，它仅受 Ⅱ的射击，被击中的概率为 0.3(Ⅰ来不及返回攻击它)。若战斗机阻击Ⅰ，它将同时受到两架轰炸机的射击，被击中的概率为 0.7。一旦战斗机未被击中，它将以 0.6 的概率击毁其选中的轰炸机。请为 A 、B 双方各选择一个最优策略，即：对于 A 方应选择哪一架轰炸机装载炸弹？对于 B 方战斗机应阻击哪一架轰炸机？

解双方可选择的策略集分别是

S A = {α1 ,α2 }，α1 ：轰炸机Ⅰ装炸弹，Ⅱ护航

α2 ：轰炸机Ⅱ装炸弹，Ⅰ护航

S B = {β1 , β2 }， β1 ：阻击轰炸机Ⅰ

β2 ：阻击轰炸机Ⅱ

赢得矩阵 R = (a ij )2?2 ，a ij 为 A 方采取策略αi 而 B 方采取策略 β j 时，轰炸机轰炸

B 方指挥部的概率，由题意可计算出： a 11 = 0.7 + 0.3(1 - 0.6) = 0.82

= 1 ， a 21 = 1

= 0.3 + 0.7(1 - 0.6) = 0.58

a 12 a 22 即赢得矩阵

R = ?

0.82 1 /

' ∞

1 0.58?

≤ 易求得 μ = max min a ij = 0.82 ，ν = - min max a ij = -1 。由于 μ +ν ≠ 0 ，矩阵

i j R 不存在鞍点，应当求最佳混合策略。

j i 现设 A 以概率 x 1 取策略 α1 、以概率 x 2 取策略 α2 ； B 以概率 y 1 取策略 β1 、以概率 y 2 取策略 β2 。

先从 B 方来考虑问题。 B 采用 β1 时， A 方轰炸机攻击指挥部的概率期望值为

E (β1 ) = 0.82x 1 + x 2 ，而 B 采用 β2 时， A 方轰炸机攻击指挥部的概率的期望值为 E (β2 ) = x 1 + 0.58x 2 。若 E (β1 ) ≠ E (β2 ) ，不妨设 E (β1 ) < E (β2 ) ，则 B 方必采用 β1 以减少指挥部被轰炸的概率。故对 A 方选取的最佳概率 x 1 和 x 2 ，必满足：

?0.82x 1 + x 2 = x 1 + 0.58x 2

?x 1 + x 2 = 1

即

?a 11 x 1 + a 21 x 2 = a 12 x 1 + a 22 x 2 ?

?x 1 + x 2 = 1

-158-

由此解得 x 1 = 0.7 ， x 2 = 0.3 。

同样，可从 A 方考虑问题，得

?0.82 y 1 + y 2 ? y 1 + y 2 = 1

= y 1 + 0.58 y 2

即

?a 11 y 1 + a 12 y 2 = a 21 y 1 + a 22 y 2 ? y 1 + y 2 = 1

并解得 y 1 = 0.7 ， y 2 = 0.3 。 B 方指挥部被轰炸的概率的期望值V G = 0.874 。记

零和对策 G 的解集为 T (G ) ，下面三个定理是关于对策解集性质的主要结果：

定理 5 设有两个零和对策

G 1 = {S 1, S 2 ; A 1}， G 2 = {S 1, S 2 ; A 2} 其中 A 1 = {a ij }， A 2 = {a ij + L } ， L 为任一常数。则

（i ）V G = V G + L 2 1

（ii ） T (G 1 ) = T (G 2 ) 定理 6 设有两个零和对策

G 1 = {S 1 , S 2 ; A } ， G 2 = {S 1 , S 2 ;αA } 其中α > 0 为任一常数。则

（i ）V = αV G 2 G

（ii ） T (G 1 ) = T (G 2 )

定理 7 设 G = {S 1 , S 2 ; A } 为一零和对策，且 A = - A 为反对称矩阵（亦称这种对策为对称对策）。则

（i ）V G = 0

（ii ） T 1 (G ) = T 2 (G ) 其中 T 1 (G ) 和 T 2 (G ) 为局中人Ⅰ和Ⅱ的最优策略集。

§4 零和对策的线性规划解法

当 m > 2 且 n > 2 时，通常采用线性规划方法求解零和对策问题。局中人Ⅰ选择混合策略 x 的目的是使得

x Ay = max min x T Ay = max min x T A (∑ y e ) j j x y x y

j =1

∑ E j y j

j =1

= max min x

其中 e j 为只有第 j 个分量为 1 而其余分量均为零的单位向量， E j = x Ae j 。记

-159-

n n u ≡ E k = min E j ，由于 ∑ y j = 1 ， min ∑ E j y j

在 y k = 1 ， y j = 0( j ≠ k ) 时达到最 j Y j =1

j =1

小值 u ，故 x 应为线性规划问题

max u

? m ?∑ a ij x i ≥ u , j = 1,2,L , n (即E j

≥

E ) ? i =1

? m ?∑ x i = 1 （2）

s.t. ? i =1

?x i ≥ 0, i = 1,2,L , m ? ?

的解。同理， y 应为线性规划

min v

? ?∑ a ij y j ? j =

1 ≤ v , i = 1,2,L , m ? n

?∑ y j = 1

（3）

s.t. ? j =1

? y ≥ 0, j = 1,2,L , n j ? ??

的解。由线性规划知识，（2）与（3）互为对偶线性规划，它们具有相同的最优目标函

数值。

不妨设 u > 0 ，作变换

x i

x ' = ， i = 1,2,L , m i

则线性规划问题（2）化为：

min ∑ x 'i

i =1

? m

?∑ a ij x 'i ≥ 1, j = 1,2,L , n s.t. ? i =1 ?

?x 'i ≥ 0, i = 1,2,L , m

同理，作变换

，

y ' j = 1,2,L , n

j v

则线性规划问题（3）化为：

-160-

max ∑ y 'i

i =1

? ?∑ a ij y ' j ≤ 1, i = 1,2,L , m ? j =1

s.t. ? y ' ≥ 0, j = 1,2,L , n ? j

例 4 在一场敌对的军事行动中，甲方拥有三种进攻性武器 A 1 , A 2 , A 3 ，可分别用于摧毁乙方工事；而乙方有三种防御性武器 B 1 , B 2 , B 3 来对付甲方。据平时演习得到的数据，各种武器间对抗时，相互取胜的可能如下：

A 1 对

B 1 A 2 对 B 1 A 3 对 B 1 2：1； 3：7； 3：1； A 1 对 B 2 A 2 对 B 2 A 3 对 B 2 3：1； 3：2； 1：4； A 1 对 B 3 1：2； A 2 对 B 3 1：3；

A 3 对

B 3 2：1 解先分别列出甲、乙双方的赢得的可能性矩阵，将甲方矩阵减去乙方矩阵的对应

元素，得零和对策时甲方的赢得矩阵如下：

1/ 3 1/ 2

1/ 5

- 3 / 5 - 1/ 3/

? A = '- 2 / 5

-1/ 2∞

' '≤ ∞

∞?

1/ 2 1/ 3 编写程序如下：

clear

a=[1/3,1/2,-1/3;-2/5,1/5,-1/2;1/2,-3/5,1/3];b=10; a=a+b*ones(3); %把赢得矩阵的每个元素变成大于0的数

[x0,u]=linprog(ones(3,1),-a',-ones(3,1),[],[],zeros(3,1)); x=x0/u,u=1/u-b

[y0,v]=linprog(-ones(3,1),a,ones(3,1),[],[],zeros(3,1)); y=y0/(-v),v=1/(-v)-b

解得 x = (0.5283,0, 0.4717)T

， y = (0, 0.3774, 0.6226)T

， u = -0.0189 ，故乙方有利。

下面我们使用式（2）和（3），利用 LINGO 编程求例 4 的解。LINGO 程序如下：

model: sets:

player1/1..3/:x; player2/1..3/:y;

game(player1,player2):c; endsets data:

ctrl=?; !ctrl 取1求局中人1的策略，ctrl 取0求局中人2的策略; c=0.3333333 0.5 -0.3333333 -0.4 0.2 -0.5

0.5 -0.6 0.3333333; enddata

max=u*ctrl-v*(1-ctrl); @free(u);@free(v);

@for(player2(j):@sum(player1(i):c(i,j)*x(i))>u);

-161-

@for(player1(i):@sum(player2(j):c(i,j)*y(j))

@sum(player1:x)=1;

@sum(player2:y)=1;

end

由定理4知，混合对策问题的求解问题可以转化为求不等式约束的可行点，而

LINGO软件很容易做到这一点。我们编写如下Lingo程序求解上述问题。

model:

sets:

player1/1..3/:x;

player2/1..3/:y;

game(player1,player2):c;

endsets

data:

c=0.3333333 0.5 -0.3333333

-0.4 0.2 -0.5

0.5 -0.6 0.3333333;

enddata

@free(u);

u=@sum(game(i,j):c(i,j)*x(i)*y(j));

@for(player1(i):@sum(player2(j):c(i,j)*y(j))

@for(player2(j):@sum(player1(i):c(i,j)*x(i))>u);

@sum(player1:x)=1;

@sum(player2:y)=1;

end

§5 二人非常数和对策

所谓常数和对策是指局中人I和局中人II所赢得的值之和为一常数。显然，二人零和对策是二人常数和对策的特例，即常数为零。

对于二人常数和对策，有纯策略对策和混合策略对策，其求解方法与二人零和对策是相同的。

二人非常数和对策也称为双矩阵对策。也有纯策略对策和混合策略对策两种策略。

5.1 纯策略问题例1给出了典型的二人非常数和对策，每人的赢得矩阵是不相同

的，因此称为双矩

阵对策。

问题分析这是一个二人非常数和对策问题。从表面上看，两犯罪嫌疑人拒不供认，只能被

判18个月徒刑，结果是最好的。但仔细分析，却无法做到这一点。因为犯罪嫌疑人A 如果采用不供认策略，他可能被判刑的刑期为18个月或7年，而犯罪嫌疑人B 可能判的刑期为0或18个月。而A 选择供认，他被判的刑期为0或3年，此时，犯罪嫌疑人B 可能判的刑期为3年或7年。因此，犯罪嫌疑人A 一定选择供认。基于同样的道理，犯罪嫌疑人B 也只能选择供认。

选择供认是他们最好的选择，各自被判3年。

按照上面的论述，对于一般纯策略问题，局中人I、II 的赢得矩阵如表2 所示。其中局中人I 有m个策略α1 ,L,αm ，局中人II 有n个策略β1 ,L, βn ，分别记为= {α1 ,L,αm }，S2 = {β1 ,L, βn }

-162-

1 1

2 2 C = (c ) 为局中人 I 的赢得矩阵，C = (c ) 为局中人 II 的赢得矩阵。因此， ij m ?n ij m

?n 双矩阵对策记为

G = {S , S ,

C 1 , C 2 } 1 2 表 2

β1

β2

βn

… 1 2 1 2

α1 α2

αm

(c , c ) (c , c ) (c 1n , c 1n ) … 11 11 12 12 1 2 1 2 1

2 (c , c )

(c , c )

(c 2n , c 2n )

M …

21 M 21 22 M

22 1 2 1 2 1 2 (c , c )

(c , c )

…

m 1 m 1 m 2 m 2 mn mn ,

C 1

, C 2

}是一双矩阵对策，若等式设 G = {S , S 定义

5 1 2 c 1

= min max c 1 ， c 2 = min max c 2

（4）

i * j * ij i * j * ij

成立，则记 v = c 1

，并称 v 为局中人I 的赢得值，记 v = c 2

，并称 v 为局中人II 1 i * j * 1 2 i * j * 2 赢得值，称 (α * , β * ) 为 G 在纯策略下的解（或Nash 平衡点），称α * 和 β * 分别为局i j 人I ，II 的最优纯策略。 i j 实际上，定义5也同时给出了纯策略问题的求解方法。因此，对于例1，((1,0), (1,0)) 是Nash 平衡点，这里 (1,0) 表示以概率1取第一个策略，也就是说，坦白是他们的最佳策略。

5.2 混合对策问题如果不存在使式（4）成立的对策，则需要求混合对策。类似于二人零和对策情况，需要给出混合对策的最优解。

（1）混合对策问题的基本概念

定义6 在对策 G = {S , S , C 1

, C 2

}中，若存在策略对 x ∈ S * , y ∈ S *

，使得

1 2 1 2 ??x T

C 1

y ≤ x T C 1

y , ?x ∈ S *

1 ? ??x T C

2 y ≤ x T C 2 y , ?y ∈ S *

2 则称 (x , y 为 G 的一个非合作平衡点。记 v = x T C 1 y ， v = x T C 2

y ，则称 v , v 分别

1 2 1 2 为局中人I ，II 的赢得值。

对于混合对策问题有如下定理。

定理8 每个双矩阵对策至少存在一个非合作平衡点。

定理9 混合策略 (x , y 为对策 G = {S , S ,

C 1

, C 2

}的平衡点的充分必要条件是 1 2 ? n ∑ ij j c y ≤ x T C 1 y , 1 i = 1,2,L , m ? ? j = 1 （5）

? m

? ∑ ij c x ≤ x T C 2 y , 2 j = 1,2,L , n ?? i =1

i （2）混合对策问题的求解方法

由定义6可知，求解混合对策就是求非合作对策的平衡点，进一步由定理8得到，求解非合作对策的平衡点，就是求解满足不等式约束（5）的可行点。因此，混合对策

问题的求解问题就转化为求不等式约束（5）的可行点，而LINGO 软件可以很容易做到

这一点。

例 5 有甲、乙两支游泳队举行包括三个项目的对抗赛。这两支游泳队各有一名健将级运动员（甲队为李，乙队为王），在三个项目中成绩都很突出，但规则准许他们每人只能参加两项比赛，每队的其他两名运动员可参加全部三项比赛。已知各运动员平时成绩（秒）见表 3。

表 3 假定各运动员在比赛中都发挥正常水平，又比赛第一名得5分，第二名得3分，第

三名得1分，问教练员应决定让自己队健将参加哪两项比赛，使本队得分最多？（各队参加比赛名单互相保密，定下来后不准变动）

解分别用 α1 、 α2 和 α3 表示甲队中李姓健将不参加蝶泳、仰泳、蛙泳比赛的策略，分别用 β1 、 β2 和 β3 表示乙队中王姓健将不参加蝶泳、仰泳、蛙泳比赛的策略。当甲队采用策略 α1 ，乙队采用策略 β1 时，在100米蝶泳中，甲队中赵获第一、钱获第三得6分，乙队中张获第二，得3分；在100米仰泳中，甲队中李获第二，得3分，乙队中王获第一、张获第三，得6分；在100米蛙泳中，甲队中李获第一，得5分，乙队中王获第二、张获第三，得4分。也就是说，对应于策略 (α1 , β1 ) ，甲、乙两队各自的得分为 (14,13) 。表4给出了在全部策略下各队的得分，计算的Matlab 程clc,clear

a=[59.7 63.2 57.1 58.6 61.4 64.8 67.2 68.4 63.2 61.5 64.7 66.5 74.1 75.5 70.3 72.6 73.4 76.9]; m=3;n=3;kk=3;T=1000;

sc1=[5:-2:1,zeros(1,3)]; %1-6 名的得分 sc2=repmat(sc1,kk,1); for i=1:m

for j=1:n

b=a;

b(i,3)=T;b(j,4)=T; %不参加比赛，时间成绩取为充分大 [b,ind]=sort(b,2); %对 b 的每一行进行排序 for k=1:m

sc2(k,ind(k,:))=sc1; %计算得分 end

A_sc(i,j)=sum(sum(sc2(:,1:m))); %统计得分 B_sc(i,j)=sum(sum(sc2(:,m+1:end))); end end

A_sc,B_sc

-164-

甲队

乙

队

赵

钱李王张

孙 100 米蝶泳 59.7 63.2 57.1 58.6 61.4 64.8 100 米仰泳 67.2 68.4 63.2 61.5 64.7 66.5 100 米蛙泳

74.1

75.5

70.3

72.6

73.4

76.9

fid=fopen('txt2.txt','w'); fprintf(fid,'%f\n',A_sc'); fwrite(fid,'~','char'); fprintf(fid,'%f\n',B_sc'); fclose(fid);

%往纯文本文件中写 LINGO 数据的分割符

表4

按照定理8，求最优混合策略，就是求不等式约束（5）的可行解，写出相应的LINGO

程序如下：

model: sets:

pa/1..3/:x; pb/1..3/:y;

link(pa,pb):c1,c2; endsets data:

c1=@file(txt2.txt); c2=@file(txt2.txt); enddata

v1=@sum(link(i,j):c1(i,j)*x(i)*y(j)); v2=@sum(link(i,j):c2(i,j)*x(i)*y(j)); @for(pa(i):@sum(pb(j):c1(i,j)*y(j))

求得甲队采用的策略是α1 、α3 方案各占50％，乙队采用的策略是 β2 、β3 方案各

占

习题七 1. 表 5 是一双矩阵对策，试求局中人 A , B 的最优策略。

表 5

2. 有三张纸牌，点数分别为 1，2，3，显然按大小顺序为 3 > 2 > 1 。先由 A 任抽一张，看过后反放在桌上，并任喊大（ H ）或小（ L ）。然后由 B 从剩下纸牌中任抽一张，看过后， B 有两种选择：第一，弃权，付给 A 1 元；第二，翻 A 的牌，当 A 喊 H 时，得点数小的牌者付给对方 3 元，当 A 喊 L 时，得点数大的牌者付给对方 2 元。要

-165-

局中人 B 局中人 A

(10,4)

(4,8) (6,6) (8,8) (2,12)

(4,10)

β1

β2 β3

α1

α2 α3

(14,13) (13,14) (12,15) (13,14) (12,15) (12,15) (12,15)

(12,15)

(13,14)

求：（i ）说明 A , B 各有多少个纯策略；（ii ）根据优超原则淘汰具有劣势的策略，并列出 A 的赢得矩阵；（iii ）求解双方各自的最优策略和对策值。

3. “二指莫拉问题”。甲、乙二人游戏，每人出一个或两个手指，同时又把猜测对方所出的指数叫出来。如果只有一个人猜测正确，则他所赢得的数目为二人所出指数之和，否则重新开始。写出该对策中各局中人的策略集合及甲的赢得矩阵，并回答局中人是否存在某种出法比其他出法更为有利。

4. 甲、乙两队进行乒乓球团体赛，每队由3名球员组成。双方可排出3种不同的阵

容。甲队的3种阵容记为 A , B ,C ；乙队的3种阵容为Ⅰ，Ⅱ，Ⅲ。根据以往的记录。两队以不同的阵容交手的结果如表6所示。

表6 甲队得分数

表6中的数字为双方各种阵容下甲队的得分数。这次团体赛双方各采取什么阵容比较稳妥？

-166-

乙队

甲队

Ⅰ Ⅱ Ⅲ A －3 －1 －2 B －6 0 3 C

－4