文档库 最新最全的文档下载
当前位置:文档库 › 第七章:博弈论

第七章:博弈论

第七章:博弈论
第七章:博弈论

7博弈论Game Theory

7.1策略性决策的制定

如果人和人的行为是相互影响的,那么一个人的决策必须考虑到他人的决策和行为。对策论是对决策者之间的行为的相互影响的研究。因为对策论的研究特别强调决策者行为的理性,在过去的二十年间,对策论已被广泛地应用于经济学中。确实大多数经济行为能够被看成是对策论的一个特殊的情形。

博弈的分类

本章开始详尽考察了策略式博弈并进而更详尽地讨论了扩展式博弈。前一种是指行为者同时作出单一选择的博弈,而后一种则指行为者序贯地作出行动选择。

沿着这条路径,我们将会遇到特定解的概念。我们将研究的解的概念包括那些以占优观点、纳什均衡、贝叶斯一纳什均衡、逆向归纳、子博弈完善均衡与序贯均衡等为基础的

概念。其中每个解概念比其前辈更复杂,并且知道在什么时候应用这一个解而非另一个解是作为一个好的应用经济学家的更为重要的一部分。

一般地,这里有两种方法描述一个对策:策略(规范)形式的表示和扩展形式的表示,博弈矩阵(支付矩阵)和博弈树

博弈矩阵:由参与者、战略集、支付构成,通常来描述一个静态的策略式博弈

囚徒困境

囚徒1

囚徒2

抵赖坦白抵赖

坦白

-1,-1-9, 0

0, -9-8, -8

博弈树:参与者、战略、概率、支付,通常来描述一个动态的扩展式博弈

7.2策略式博弈

策略式博弈的描述

定义7.1策略式博弈

1、参与人players:指的是一个博弈中的决策主体,其目的是通过选择行动策略以最大化自己的支付(效用)水平“自然”是虚拟参与人(pseudo-player),他在博弈的特定时点上以特定的概率选择随机行动。

2、行动actions:参与人i的行动以a i表示,是他所能做的某一选择。参与人i的行动集(action set)A i={a i},是其可以采取的全部行动的集合。一个行动组合(action profile)是一个由博弈中的n个参与人每人选择一个行动而组成的有序集,a={a i),(i=1,...,n).行动的顺序

3、信息information:是参与人有关博弈的知识,如自然的

选择,其他参与人的特征和行动等知识。

共同知识(Common Knowledge),每个参与者知道的知识,每个参与者知道“每个参与者知道知识”,……

私人信息,在博弈中(开始博弈前或博弈中),参与者i 的私人信息是指他知道,但不是所有参与者的共同知识。

4、参与人的策略(strategy)s i参与人在给定信息集下的行动规则,他规定参与人在每一时点选择何种行动。s i表示参与人i的一个特定策略,符号S-i:其他所有人的战略。参与人的策略集(strategy set;strategy space)或策略空间S i={s i}是其可行策略的集合。

策略组合(strategy profile)s=(s1,s2,...,s n)是由博弈的n个参与人每人选择一个策略的集合

*策略不同于行动。

*策略必须是完备的。比如:红军对付白军的策略是:人不犯我,我不犯人;人若犯我,我必犯人。这个策略使白军不敢犯我。但是策略必须包括人若犯我的情况。否则,就不能保证敌人不犯我。

5、支付/收益payoff:是指在一个特定的策略组合下参与人得到的确定效用水平(收益),或指参与人得到的期望效用水平(收益)。

u=(u1,u2,...u i,...u n)为n个参与人的支付组合payoff profile。参与人i的支付是所有参与人的策略的函数:u i : 1N j j S=?→

u i =u i (s 1,...s i ,...s n )

6、一个博弈(分析)的结果outcome 是博弈分析者所感兴趣的所有东西,如均衡策略组合,均衡行动组合,均衡支付组合等等,取决于博弈分析者的到底需要什么。

7、均衡是所有参与人的最优策略的组合: s*=(s 1*,...s i *,...,s n *)

其中s i *表示第i 个参与人在均衡条件下的最优策略: u i (s i *,s -i )≥u i (s i ',s -i )对任意的s i '≠s i *.

7.2.1占优策略 定义7.2严格占优策略

对于一切i i i i s s S s s ?,),(≠∈-,如果),(),?(i i i i i i s s u s s

u -->成立,那么,对于局中人i,策略i s

?是严格占优的。 如果一个参与人的某个策略是相对于其他参与人的所有策略的严格最优策略,那么这个策略就是严格占优的。

定义7.3严格占劣策略

对于一切,i i S s --∈),(),?(i i i i i i s s u s s

u -->,那么,对于局中人

i,策略i s

?是严格占优于它的另外一个策略i s -。在这种情况下,i s -在S 中是严格占劣的

定义7.4重复删除严格非占劣策略

如果对于一切n

I i S s n ∈≥,1,那么,对于局中人i 而言,策略s i 是S 中的重复删除后留下的严格非占劣策略(或严格占劣策略被重复删除后所留存的策略) 定义7.5弱占劣策略

对于一切,i i S s --∈),(),?(i i i i i i s s u s s u --≥,并且至少有一个严

格不等式成立,那么,对于局中人i,策略i s

?是弱占优于它的另外一个策略i

s 。在这种情况下,i

s 在S 中是弱占劣的。

定义7.6重复删除弱非占劣策略

s i 是S 中的经重复删除过程所留下的弱占优策略(重复排除

弱占劣策略后留下的策略)。 7.2.2纳什均衡

定义7.7纯策略纳什均衡

给定一个策略式博弈n i i i u S G 1

)

,(==,如果对于每一个局中

人i,并且对于一切的)?,()?(,i i i i i i s s u s

u S s -≥∈,那么,策略组合S s

∈?是一个纯策略纳什均衡。 给定其他参与人的(最优)策略,该参与人的纳什均衡策略一定是最优的。

求纯策略纳什均衡的通用办法:划线法。

有些策略式博弈可能拥有多重纳什均衡,如图7.4,也可能没有一个纯策略纳什均衡,如下图:

7.2.2.1混合策略

例1守门员和射手

最优策略:各以0.5概率扑/射向左边/右边 例二:社会福利博弈

上面博弈不存在纯策略纳什均衡

但是可能存在一个混合策略均衡:政府(0.5,0.5)。给定政府混合策略,流浪汉寻找工作的期望效用是:

0.5*2+0.5*1=1.5;游荡的预期效用为0.5*3+0.5*0=1.5; 因而选择任何混合策略的期望效用都相同,并且都是对政府所选择的混合策略的最优反映,特别的:流浪汉:(0.2,0.8)。 给定流浪汉的混合策略,政府救济的期望效用=0.2*3+0.8*-1=-0.2;不救济的期望效用:0.2*-1+0.8*0=-0.2;

混合策略(0.5,0.5)=-0.2*0.5+-0.2*0.5=-0.2。 所以,政府(0.5,0.5)和流浪汉(0.2,0.8)构成纳什均衡。

定义7.8混合策略

固定一个有限策略式博弈n

i i i u S G 1),(==。参与人i 的一个混合策略是},...,,{21ik i i i s s s S =上的一个概率分布

},...,{2,1ik i i i m m m M =。这里,s i1是纯策略, }

{ik ik s m m =是i 选择s ik 的概率。

i N

i M X M 1==表示混合策略组合集合(混合策略空间),

M m ∈为一混合策略组合,i i M m ∈是参与人的一个混合

策略。

如果u i 为期望效用函数,并且混合策略组合M m ∈ 被采用,则i 的期望效用为:

)

()()...(*)()(22

1

1

s u s m s m

s m m u i N N S

s i ∑∈=

例两人博弈:},...,,{11211K i s s s S =,

},...,,{22221J i s s s S =。如果参与人1相信参与人2的混合

策略为),...,(2212J m m m =,参与人2相信参与人1的混合策略为1111k (,...,)m m m =

参与人1选择纯策略s 1k 的期望效用为:

∑==

+++J

j j k j

J k J k k s s u m

s s u m s s u m s s u m 1

21122112221122211121)

,()

,(...),(),(参与人1选择混合策略m 1=(m 11,…,m 1k )的期望效用为:

11211121211211

121121

1

(,)...(,)

(,)

J J

j j k j k j j j K

J

k

j k j i j m m u s s m m u s s m

m u s s ====++=

∑∑∑∑

定义7.9纳什均衡

给定一个有限策略式博弈n

i i i u S G 1),(==,如果对于每个参与人i,对于一切i i M m ∈,总有)?,()?(i i i i m m u m

u -≥,那么,这个策略组合就是一个纳什均衡。

定理7.1简化的纳什均衡检验 如下命题a 、b 、c 是等价的: a 、M m ∈是一个纳什均衡;

b 、对于每一个参与人i ,对于每一个i i S s ∈——由i m

?给定正权数,)?,()?(i i i i m s u m

u -=,并且对于每一个i i S s ∈,——由i m

?给定0权数,)?,()?(i i i i m s u m u -≥ 社会福利博弈例

c 、对于每一个参与人i ,对于每一个i i S s ∈,

)?,()?(i i i i m s u m

u -≥ b 表明:1、混合策略均衡和进入混合策略均衡的纯策略的期望收益是相等的,且每一个纯策略的期望收益都相等,例社

会福利博弈。这样,每一个进入混合策略均衡的纯策略都是最优的,因而是无差异的。2、混合策略均衡一定不比没有进入混合策略均衡的纯策略差。

C 表明:混合策略均衡一定不比纯策略差。 证明:思路a c b a ???。 1、b a ?

假设m

?是一个纳什均衡,因此,对于所有i i M m ∈,有)?,()?(i i i i m m u m

u -≥。特别的,任选i i S s ∈,选择m i 为赋予s i 的概率为1的策略(蜕化策略),使得事实上对于每一

个s i ,都有)?,()?(i i i i m s u m

u -≥。 …? 推论:

每一个进入混合策略均衡的纯策略的期望收益都相等,因而可以用期望收益相等法求解混合策略均衡。 例7.1

混合策略

对于2的混合策略(q,1-q ),1选择纯策略wp 和mw 的收益

应该相等:

q*2+(1-q)*0=q*0+(1-q)*1

对于1的混合策略(1-p,p ),2选择纯策略wp 和mw 的收益应该相等:

(1-p)*1+p*0=(1-p)*0+p*2 联立求解得:p=q=1/3.

混合策略的概率的解释:

1、 参与人随机的选择其纯策略,比如点球;

2、 参与人对对方选择某一纯策略的信念(belief ),如上

例中,参与人2认为参与人1选择wp 的概率是2/3,选择mw 的概率是1/3。 定理7.2纳什均衡存在性定理:

每一个有限策略式博弈都至少存在一个纳什均衡 证明:

Brouwer 不定点定理: 设n

R

S

?是一个非空1的有界的闭2且凸3的集合。设S

S f

→:4

是一个连续5映射。那么,在S 中至少存在一个f 的不动点,这便是至少存在一个S X ∈*

使得)(*

*

X f X

=。

两维空间图示:

如果f 是从一个闭区间[a ,b]到同一闭区间的连续映射,那么,Brouwer 不定点定理保证f 的图像将在平方[a,b]],[b a ?内

至少穿过45度线一次。

f(x)

b

S f(x*)

a

0 a x* b x

S

设N

i i i u G G 1),(==是一个有限策略式博弈。为了简化,假设每个参与人都拥有n 个纯策略。因此,对于参与人i 我们可以用1,...,n 为其策略编号,即},...,2,1{n S i =。因此,

),...,,(21N i j j j u 表示当参与人1选择纯策略j 1,参与人2选

择纯策略j 2,...,参与人N 选择纯策略j N 时,参与人i 的支付。

参与人

i 的混合策略集合是∑=+

=∈=n

j ij

n

in i i m

R m m M 1

1}1),...,{。

这里m ij 表示分配给参与人i 第j 项纯策略的概率。

10≤≤ij m ,显然,M i 是非空1的,闭的有界2的和凸的3。

我们应当表明G 的纳什均衡的存在性可由一个函数的一个不动点的存在来证明。证明步骤:1、构造函数;2、证明该函数有一个不动点;3、证明这个不动点是G 中的一个纳什均衡。

步骤1、定义M M f →:如下:对于每个M m ∈,每个参与人i 与它的纯策略j,设:

=---+

-+=

n

j i i i i i i ij ij m u m j u m u m j u m m f 1

'))(),'(,0max(1))

(),(,0max()(

N

i m f m f m f in i i ,...,1)),(),...,(()(1==,

))

(),...,(()(1m f m f m f N =,对于每个参与人

i,∑

==n

j ij m f 1

1

)(,且0)(≥m f ij (这里证明了)(m f i 和m i 的

定义域是一致的4

)。所以,对于每个

i,M f(m),)(∈∈并且i i M m f .

步骤2、由于定义f ij 的分子、分母关于m 连续,且分母不等于0,因而对于每个i 与j ,f ij 是m 的连续函数。因此,f 是一个将非空的紧的且凸的集合M 映射进自身的连续函数5。

所以,根据不动点定理,F 存在一个不动点m

?. f i (m) 1

M f(m

?)

m

? 1

M

步骤3:由于m m

f ?)?(=,对于每个参与人i 与纯策略j ,有ij ij m m

f ?)?(=。因而由f ij 定义有: ∑=---+

-+=n

j i

i i i i i ij ij m u m j u

m u m j u m

m

1

'))?()?,'(,0max(1))?()?,(,0max(?? 即:

))?()?,(,0max())?()?,'(,0max(?1

'm u m j u m u m

j u

m

i i i n

j i i i

ij -=--=-∑

两边同乘以)?()?,(m u m

j u i i i --并把j 个项相加得: ∑∑∑=--==----=

--n

j i i i i i i

n

j n

j i i i i i i ij

m u m j u o m u m

j u

m u m j u m u m

j u m

1

1

1

'))?()?,(,max()?()?,([))?()?,'(,0max()]?()?,([?左边等于0,因为:

)?()?()?()?,()]?()?,([?1

1

=-=-=-∑∑=--=m u m u m u m

j u m

m u m

j u m

i i n

j i i i ij

i i i n

j ij

这样,上式可写为:

∑=---

=

n

j i i i i i i

m u m j u o m

j u

1

))?()?,(,max()?,([0对于每个策略j ,仅当)?()?,(m u m

j u i i i ≤-时上式成立,也就是说,对于其他参与人的策略i m

-?,参与人i 的最佳策略是i m

?,即m ?构成纳什均衡。

7.2.3不完全incomplete 信息策略式博弈(不完全信息静态博弈)

不完全信息是指博弈中至少有一方不完全清楚其他参与人的收益。 例市场进入博弈

在位者

高成本情况 低成本情况 默许 斗争 默许 斗争

进入者 进入

不进入

进入者不知道在位者的成本情况,因而不知道到底是否进入。

假设在位者高成本的概率为p,则进入者进入的期望利润是: p*40+(1-p)*(-10)>0,p>1/5时进入。

参与人i=1,..,N,参与人i 的纯策略集i S ,类型i T ,p 是参与人类型在类型集上的概率分布,0)(,>∈?t p T t ,是共同先验概率。

给定参与人i 的类型i i T t ∈(自己知道自己的类型),那么他关于其他参与人的类型的分布由条件概率刻画:

--∈---=

i

i T t i i i i i i t t p t t p t t p ),()

,()(

参与人的支付是类型依存的。不完全信息静态博弈的“类型依存”性质:参与人的策略(行动) 以及支付依存于其类型。)(i i t S 表示参与人i 的类型依存行动空间,

)()(i i i i t S t a ∈表示i 的一个特定行动,);,(i i i i t a a u -表

示参与人i 的效用函数。例如进入博弈中,在位者是默许还是斗争取决于其是高成本还是低成本类型,其支付也是。

定义7.10不完全信息策略式博弈:n 人静态贝叶斯博弈的策略式表示包括:参与人的类型集},...{1N T T ,条件概率p 1,…,p n ,类型依存策略空间)(),...,(11N N T S T S 和类型依存支付函数);,...,(),...,;,...,(1111N N n N t a a u t a a u ,参与人i 知道自己的类型,条件概率)/(i i i i t p p -=描述给定自己属于i t 情况下,参与人i 有关其他参与人类型的不确定性。这样,静态贝叶斯博弈可以用},...,;,...,;,...,;,..,{1111N N N N u u P P t t s s G =表示。

静态贝叶斯博弈顺序如下:1、自然选择类型,参与人知道自己的类型,但不知道其他参与人的类型,只知道其概率分布;2、所有参与人同时选择行动。

(一般通过Harsanyi 转换为不完美信息动态博弈) 上例:

不完全信息博弈可以转化为一些相关联的完全信息策略什博弈。

例7.2厂商1不知道对手(厂商2)情况的博弈等价于厂商1面临着两个对手(高成本2h,低成本2l 厂商)的博弈。

定义7.11关联的策略式博弈

(将不完全信息策略式博弈转化为与它相关联的策略式博弈)。

设N

i i i i u S T p G 1),,,(==是一个不完全信息策略式博弈,并设J j j j v R G ∈=),(*

是一个完全信息策略式博弈,它的参与人集合J 是),(i t i j =形式的所有指标j 的集合。这里i i T t ∈,i=1,…,N.并且参与人),(i t i j =的策略集被界定

为:

j j S R ≡ (策略j j s r =)

参与人),(i t i j =的支付函数(期望效用函数)被界定为:

)

,,)()(),...,(),(,1i i i k t k j i T t i i N j t t r r u t t p r r v k i

i -≠∈-∑

--≡

我们称G *

是同不完全信息博弈G 相关联的策略式博弈。

上例:进入厂商进入的期望收益:

5.040*5.0(5.0(5.0++=+=进入,斗争)进入,默许)j j j u u v

关联的策略式博弈至少存在一个纳什均衡(纳什均衡的存在性定理)。

定义7.12贝叶斯纳什均衡

每一个不完全信息博弈的贝叶斯纳什均衡是一个与它相关联的策略式博弈的纳什均衡。

定理7.3贝叶斯纳什均衡的存在性

每一个不完全信息的有限博弈至少拥有一个贝叶斯纳什均衡。

证明:因为同一个有限的不完全信息博弈相关联的策略什博弈是有限的,而关联的策略什博弈至少存在一个纳什均衡,

博弈论课堂实验

博弈论课堂实验。 第一个实验是二级价格拍卖,拍卖品被强制地规定为对每个同学价值10元。让他们出价。结果有1人出8元,有2人出9元,有9人出10元,有5人出11元,有2人出12元,有1人出13元,还有7人出到15元或以上。 第二个实验是苏比克拍卖。我以10元人民币向同学拍卖。依次有同学出价5元,6元,7元,10元,11元,最后叫10元的同学放弃。我10元钱拍卖得到21元(净赚11元)。 第三个实验是选美博弈,结果如下: 学生编号第一轮第二轮第三轮第四轮 1503972 2252533 3313186 4402333 52520207 6281772 723622320 83030102 9251276 101312100 115216 12505071 1390901414 142556100 1551000 163212 176860148 181111 19262642 20351532 21444411

220022 23252075 2440000 25101003 26251205 2755500 282548155 293029157 30303274 3138844 32251386 3315752 34152582 35250.9 2.53 36303073 372510010 ===================== 补充:二级价格拍卖规则是,每个人写下他们的出价交给拍卖者,出价最高的人得到拍卖物品,但他只需要付出次高价格的价钱。其余人未得到物品,也不付钱。课堂的实验结果表明约有1半的人出价超过了其对于物品的评价,这并不是理性的选择。理性的结果应该是出价为其对物品的评价。但是,这也可能是因为事前强制了物品对他们价值10元有关(每个人都清楚此物对其他人价值十元)。不过,出价高于、低于十元仍是不理性的。 苏比克拍卖规则:直接叫价拍卖,喊价最高者得到拍卖品(10元钱),但是喊价最高和次高的都需要付出其喊价给拍卖者。理性的做法是不参加拍卖,或者一旦有人参加则自己放弃参加。因为会出现轮番加价的陷阱。 选美博弈规则:每人任选[0,100]区间的一个整数,然后以众人的选择求平均,再在平均值基础上乘0.5,得到一个数,与这个数越接近的选择就得到越高的回报(成绩分数,譬如确定分数计算的公式为100-|xi-0.5∑xi/n|,以此记载学生平时成绩一次)。标准的博弈论解最后是大家都会选择0。但是很多实验表明结果并不如此,因为很多时候人们不一定有这么深的推理能力,即使自己有这样的推理能力也不能确保其他人有同样深的推理能力。课堂实验结果与其他许多同样的实验结果是差不多的。最初人们多选择20-40的数字,但是重复数次后就出现向零方向的收敛,尤其是在获悉前次博弈的结果的时候。选美博弈的思想最早可

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例一一“海盗分金”问题 5个海盗抢得100枚金币,他们按抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,超过半数同意方案才被通过,否则他将被扔入大海喂鲨鱼,依此类推。 “海盗分金”其实是一个高度简化和抽象的模型,体现了博弈的思想。在“海盗分金”模型中,任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么,并用最小的代价获取最大收益,拉拢 “挑战者”分配方案中最不得意的人们。 假设前提 假定“每个海盗都是绝顶聪明且很理智”,那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化?” 推理过程 从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。 3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。 不过,2号推知3号的方案,就会提出(98,0,1,1)的方案,即放弃3 号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。 同样,2号的方案也会被1号所洞悉,1号并将提出(97, 0,1, 2, 0)或(97, 0,1, 0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97, 0, 1, 2, 0)或(97, 0, 1, 0, 2)。分析 1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。这不正是全球化过程中先进国家的先发优势吗?而5号,看起来最安全,没有死亡的威胁,甚至还能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹。 不过,模型任意改变一个假设条件,最终结果都不一样。而现实世界远比模型复杂。 首先,现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中,只要3号、4号或5号中有一个人偏离了绝对聪明的假设,海盗1号无论怎么分都可能会被扔到海里去了。所以,1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住,否则先分者倒霉。 如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此,1号自以为得意的方 案岂不成了自掘坟墓! 再就是俗话所说的“人心隔肚皮”。由于信息不对称,谎言和虚假承诺就_ 大有用武之地,而阴谋也会像杂草般疯长,并借机获益。如果2号对3、4、5 号大放烟幕弹,宣称对于1号所提出任何分配方案,他一定会再多加上一个金币给他们。这样,结果又当如何? 通常,现实中人人都有自认的公平标准,因而时常会嘟嚷:“谁动了我的奶

博弈论第七章习题

第七章习题 一、判断下列表述是否正确,并作简单分析 (1)海萨尼转换可以把不完全信息静态博弈转换为不完美信息博弈,说明有了海萨尼转换,不完全信息静态博弈和一般的不完美信息动态博弈是等同的,不需要另外发展分析不完全信息静态博弈的专门分析方法和均衡概念。 答:错误。即使海萨尼转换把不完全信息静态博弈转换为不完美信息动态博弈,也是一种特殊的有两个阶段同时选择的不完美信息动态博弈,对这种博弈的分析进行专门讨论和定义专门均衡的概念有利于提高分析的效率。 (2)完全信息静态博弈中的混合策略可以被解释成不完全信息博弈的纯策略贝叶斯纳什均衡。 答:正确。完全信息静态博弈中的混合策略博弈几乎总是可以解释成一个有少量不完全信息的近似博弈的一个纯策略Bayes—Nash均衡。夫妻之争的混合策略Nash均衡可以用不完全信息夫妻之争博弈的Bayes—Nash均衡表示就是一个例证。 (3)证券交易所中的集合竞价交易方式本质上就是一种双方报价拍卖。 答:正确。我国证券交易中运用的集合竞价确定开盘价的方式就是一种双方报价拍卖。与一般双方报价拍卖的区别只是交易对象,标的不是一件而是有许多件。 (4)静态贝叶斯博弈中之所以博弈方需要针对自己的所有可能类型,都设定行为选择,而不是只针对实际类型设定行为选择,是因为能够迷惑其他博弈方,从而可以获得对自己更有利的均衡。

答:错误。不是因为能够迷惑其他博弈方,而是其他博弈方必然会考虑这些行为选择并作为他们行为选择的依据。因为只根据实际类型考虑行为选择就无法判断其他博弈方的策略,从而也就无法找出自己的最优策略。其实,在这种博弈中一个博弈方即使自己不设定针对自己所有类型的行为选择,其他博弈方也会替他考虑。因为设定自己所有类型下的行为,实际上是要弄清楚其他博弈方对自己策略的判断。 (5)“鼓励—响应”的直接机制能保证博弈方都按他们的真实类型行为并获得理想的结果。 答:错误。“鼓励—响应”机制也就是说真话的直接机制,实际上只保证博弈方揭示,也就是说出自己的真实类型。 博弈方不直接选择行为,也不保证根据真实类型行为,更谈不上一定能实现最理想的结果。因为直接机制的结果常常是带有随机选择机制的,并不一定理想。实际上对所有博弈方都理想的结果在静态贝叶斯博弈中本身不一定存在。 二、双寡头古诺模型,倒转的需求函数为 ()P Q a Q =-, 其中12Q q q =+为市场总需求,但a 有h a 和l a 两种可能的情况,并且厂商1知道a 究竟是h a 还是l a , 而厂商2只知道h a a =的概率是θ, l a a =的概率是1θ-,这种信息不对称情况双方都是了解的。双方的总成本仍然是i i i c q cq =。如果两厂商同时选择产量,问双方的策略空间是什么?本博弈的贝叶斯纳什均衡是什么? 解:设厂商1已知h a a =时的产量为11()h q a q =,已知l a a =时的产量是11()l q a q =;再假设厂商2的产量是 2q ,这两个函数关系就是两个厂商的策略空间。 11211()h h h h h a q q q cq π=---

博弈论基础复习

《博弈论基础》主要知识点 一、名词解释(5×2=10分) 策略型博弈它是由三个部分组成,即局中人、策略和各种策略组合中所得到的利益。 纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。 混合策略局中人的混合策略是其纯策略空间上的一种概率分布,表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。 扩展型博弈博弈存在着局中人行动的先后次序,是对具有动态结构的决策形式进行研究的规范分析工具。 博弈树对于任何一种双人完备博弈,都可以用一个博弈树来描述,并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。 完美信息博弈是指一次只有一个局中人在行动,而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。 子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。 逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时,从最后一个子博弈开始逆推上。 冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。 类型 :一般地,将一个参与人所拥有的所有私人信息称为他的类型。 信号博弈是研究具有信息传递作用的信号机制的一般博弈模型,其基本特征是两个博弈方,分别称为信号发出方和信号接收方。 分离均衡信号博弈中的完美贝叶斯均衡之一,这种均衡中不同类型的发送者以概率1选择不同的信号,接收者完全可以通过信号来准确判断出发送者的类型。 混同均衡信号博弈中的完美贝叶斯均衡之一,这种均衡中不同类型的发送者选择了相同的信号,接收者无法从信号中得到新的信息,无法对先验信念进行修正。 特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益,也就是给出了一种集合函数,称为特征函数。 联盟

(数学建模教材)7第七章对策论

第七章 对策论 §1 引言 社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,应用科学的方法来 解决这样的问题开始于 17 世纪的科学家,如 C.,Huygens 和 W.,Leibnitz 等。现代对 策论起源于 1944 年 J.,V on Neumann 和 O.,Morgenstern 的著作《Theory of Games and Economic Behavior 》。 对策论亦称竞赛论或博弈论。是研究具有斗争或竞争性质现象的数学理论和方法。 一般认为,它既是现代数学的一个新分支,也是运筹学中的一个重要学科。对策论发展 的历史并不长,但由于它所研究的现象与人们的政治、经济、军事活动乃至一般的日常 生活等有着密切的联系,并且处理问题的方法又有明显特色。所以日益引起广泛的注意。 在日常生活中,经常看到一些具有相互之间斗争或竞争性质的行为。具有竞争或对 抗性质的行为称为对策行为。在这类行为中。参加斗争或竞争的各方各自具有不同的目 标和利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并 力图选取对自己最为有利或最为合理的方案。对策论就是研究对策行为中斗争各方是否 存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。 §2 对策问题 对策问题的特征是参与者为利益相互冲突的各方,其结局不取决于其中任意一方的 努力而是各方所采取的策略的综合结果。 先考察一个实际例子。 例 1(囚徒的困境) 警察同时逮捕了两人并分开关押,逮捕的原因是他们持有大 量伪币,警方怀疑他们伪造钱币,但没有找到充分证据,希望他们能自己供认,这两个 人都知道:如果他们双方都不供认,将被以持有大量伪币罪被各判刑 18 个月;如果双 方都供认伪造了钱币,将各被判刑 3 年;如果一方供认另一方不供认,则供认方将被从 宽处理而免刑,但另一方面将被判刑 7 年。将嫌疑犯 A 、 B 被判刑的几种可能情况列 于表 1。 表 1 表 1 中每对数字表示嫌疑犯 A 、B 被判刑的年数。如果两名疑犯均担心对方供认并希 望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。 从这一简单实例中可以看出对策现象中包含有的几个基本要素。 2.1 对策的基本要素 (i )局中人 在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者,称为局 中人。通常用 I 表示局中人的集合.如果有 n 个局中人,则 I = {1,2,L , n }。一般要求 一个对策中至少要有两个局中人。在例 1 中,局中人是 A 、B 两名疑犯。 (ii )策略集 一局对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略。参 加对策的每一局中人 i , i ∈ I ,都有自己的策略集 S i 。一般,每一局中人的策略集中 至少应包括两个策略。 -154- 嫌疑犯 B 供认 不供认 嫌疑犯 A 供认 不供认 (3,3) (0,7) (7,0) (1.5,1.5)

博弈论与纳什平衡

博弈论与纳什平衡 博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 纳什(John Nash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。 所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略(strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。 类似的:我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。 在互联网这个原始丛林中:最优策略是如何产生的呢? 一、博弈中最优策略的产生 艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。 社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。 A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。 显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。 对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5

博弈论中的几个经典问题

几个博弈论中的经典问题 博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 几个重要的概念 1、策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案, 即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。 2、得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时 的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。 3、次序(orders):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策 选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。 4、博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。 在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。 5、纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况, 当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,那么局中人A 的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。 经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

博弈论谢识予第四五章参考标准答案

博弈论谢识予第四五章参考答案

————————————————————————————————作者:————————————————————————————————日期: 2

第四章参考答案 2、火车站和机场餐饮商业服务的顾客往往都是一次性的,回头客、常客比较少,这些经济交易具有一次性博弈的特征,它们的价格总是较高而质量又会差一些,顾客也会尽量不在这些地方购买商品和消费。在一般商业区和居民区的餐饮商业服务则回头客和常客较多,有明显的重复博弈特征,在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格,还能得到较好的服务,甚至有些还可以信用消费(赊账),因此消费者一般会比较放心地消费。这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。 3、从研究对象和问题特征看,有限次重复博弈研究的主要是有明确结束时间的(合作、竞争等)关系,无限次重复博弈研究的主要是没有明确结果时间,或者较长期的关系。 从分析方法的角度,动态博弈和重复博弈分析中常用的逆推归纳法在无限次 16 重复博弈中无法直接运用,因为没有最后一次重复。因此无限次重复博弈分析的主要方法是构造法,即根据特定效率意义等构造了博弈完美纳什均衡。此外,也可以运用某些技巧解决问题,如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。 从博弈的结果看,无限次重复博弈的效率往往高于有限次重复博弈,有些在有限次重复博弈中无法实现的效率较高的结果,在无限次重复博弈中有可能实现。例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。两类重复博弈民间定理的差异也说明了这一点。 最后,在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题,在我限次重复博弈问题中这是必须考虑的。 上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别,区分研究这两类博弈问题是非常重要的,在实践方面的主要启发是促进和保持经济关系的长期稳定性,对于提高社会经济效率等常常有非常重要的意义。6、用画线法容易找出该博弈的两个纯策略纳什均衡(T,L)和(M,R)。这两个纳什均衡的得益都帕累托劣于(B,S)。一次性博弈中效率较高的(B,S)不可能实现。但该博弈的结构表明存在双方合作的利益,在两次重复博弈中也有构造惩罚机制的条件,因此我会考虑运用试探合作的触发策略争取部分实现(B,S),提高博弈的效率。 我作为博弈方1会采用这样的触发策略:第一次重复采用B;第二次重复时,如果前一次的结果是(B,S),则采用M,如果前一次的结果是其他,则采用T。 如果另一个博弈方有同样的分析能力,或者比较有经验,那么他(或她)也会采用相似的触发策略:在第一次重复时采用S;第二次重复时,如果前一次的结果是(B,S),则采用R,否则采用L。 双方采用上述触发策略构成一个子博弈完美纳什均衡,因此是稳定的。这时候前一次重复实现了(B,S),提高了博弈的效率。 当然,上述触发策略也是有风险的,因为当另一个博弈方不理解和没有采用上述策略时,我的得益会较低。当然如果考虑到人们具有学习进步的能力,而且缺乏分析和学习能力,采用效率较低策略的博弈方长期中会逐步被淘汰掉,那么采用上述触发策略的合理性就得到了进一步的支持。

博弈论

1.“求爱博弈”:“自然”以P和1-P的概率决定求爱者是善良还是邪恶,但被求爱者不知道求爱者的真实情况,只知道其不同类型的概率分布,得益矩阵如下:通过海萨尼转换表示以上博弈问题; 找出该静态贝叶斯博弈贝叶斯纳什均衡。 *善良求爱者得益矩阵 被求爱者 接受不接受 求爱者求爱100,100 -50,0 不求爱0,0 0,0 *邪恶求爱者得益矩阵 被求爱者 接受不接受 求爱者求爱100,-100 -50,0 不求爱0,0 0,0 https://www.wendangku.net/doc/b69218830.html,im、Peter和John三人,由于Wet特被谋杀而受到传讯。犯罪现场的证据表明,可能有一名律师参与了对Wet特的谋杀。 这三人中肯定有一人是谋杀者,每一名可疑对象所作的两条供词是:Laim:(1)我不是律师。(2)我没有谋杀德怀特。 Peter:(3)我是个律师。(4)但是我没有杀害德怀特。 John:(5)我不是律师。(6)有一个律师杀了德怀特。 警察最后发现:a.上述六条供词中只有两条是实话;b.这三个可疑对象中只有一个不是律师。 你知道是谁杀害了德怀特吗? 3.张教授、李同学和王同学一起做推理实验。张教授用两张小纸片,各写一个正整数,且两者差是1。他把一张纸片贴在李同学额头上,另一张贴在王同学额头上。于是,两个人只能看见对方额头上的数。张教授不断地问:你们谁能猜到自己头上的数吗? 李说:“我猜不到。” 王说:“我也猜不到。” 李又说:“我还是猜不到。” 王又说:“我也猜不到。” 李仍然猜不到; 王也猜不到。 李同学和王同学都已经三次猜不到了。 可是,到了第四次,李同学喊起来:“我知道了!”王同学也喊道:“我也知道了!”问:李同学和王同学头上各是什么数?

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

博弈论与实验研究(泽尔腾)

我今天讲的是博弈理论,这也是实验研究的一个重要基础。首先是博弈论的起源,它来自德国冯·诺依曼1928年的文章。但博弈论的真正开始是冯·诺依曼和摩根斯腾(John von Neumann-Oskar Morgenstern)1944年的著作《博弈论和经济行为》。 先来讲一下什么是博弈论,博弈论是基于目标导向的冲突和合作中交互作用的数学建模和分析方法,即一种数学建模的分析方法。博弈论研究的情况发生在几个参与者发生目标导向交互作用的时候,交互作用包括冲突、合作或者二者并存。参与者可以是人,也可以是动物,还可以是人类构成的组织,如企业间的冲突和合作等。 下面,我们需要澄清一些误解,即博弈论不是什么。为何它不是帮助我们赢得纸牌赌博或者轮盘赌的学问?从长期来讲,你是不会赢得这些人机游戏的,它们不是多个参与者的活动。博弈论也不是告诉人们如何通过投机在股票市场上致富的理论。另外,博弈论给你一些基本的思考原则和启示,但也不是帮你赢得下棋或者扑克等复杂游戏的理论。那么,博弈论对于什么有帮助呢?博弈论是一种提供参与者在交互过程中策略和行动的内在逻辑洞察力的学问,可以应用到人类社会的经济理论、政治理论、军事理论或者生态演化理论中,也可以用于机制设计和成本会计等具体领域。 接下来,我们通过一个例子来说明博弈论的一些基本概念。 这里有三个企业(i =1, 2, 3)互相竞争,处在一种求大于供的市场,x i (x i 的取值区间为0到20)为各个企业的产品供应数量,总供应量x 为三者之和,即x =x 1+x 2+x 3。当x ≤20时,价格由公式p =20-x 给出,其它情况价格为0。各个厂商的利润P i 为x i 乘以p 。这个实验可以以学生为对象参与进行,获得结果后随机分 博弈论与实验研究 ○ (德)莱茵哈德·泽尔滕 第一种情况下,三个厂商供应量分别为4、8、6个单位,总量为18,所以价格为2,三个厂商的利润分别为8、16和12。第一问题是谁表现最出色?是否为厂商2?因为在此次博弈中它的利润比其他两个厂商高。不过,我们可以看到,在第二种实验情况下,如果它将供应量调整为5,那么价格为5,它的利润便会提升为25。实际上它犯了一个错误,自己损失了9个利润单位,在这个错误中,它的利润高于其他厂商是因为它对其他厂商的损害大于对自己的损害。 第二个问题是这种情况下应该如何做。有人讲,每个厂商供应量应该为3,则三个厂商总的最大利润为99,每个厂商利润为33。那么这是满意的解决方案吗?还不是,如果每个人供应量为3,而第一个厂商如果提供7个而不是3个单位,那么它就得到49的利润,其他人获得21的利润,这是一个很大的诱惑,供应量都为3的情况容易被否决,所以某个厂商如果获悉其他人的供应量为3,那么它就可以在3到7之间进行选择。也就是每个人都提供三个产量在具有绑定的协议的情况下是可以实现的;但是绑定的协议在这

博弈论谢识予第四五章参考答案

第四章参考答案 2、火车站和机场餐饮商业服务的顾客往往都是一次性的,回头客、常客比较少,这些经济交易具有一次性博弈的特征,它们的价格总是较高而质量又会差一些,顾客也会尽量不在这些地方购买商品和消费。在一般商业区和居民区的餐饮商业服务则回头客和常客较多,有明显的重复博弈特征,在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格,还能得到较好的服务,甚至有些还可以信用消费(赊账),因此消费者一般会比较放心地消费。这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。 3、从研究对象和问题特征看,有限次重复博弈研究的主要是有明确结束时间的(合作、竞争等)关系,无限次重复博弈研究的主要是没有明确结果时间,或者较长期的关系。 从分析方法的角度,动态博弈和重复博弈分析中常用的逆推归纳法在无限次 16 重复博弈中无法直接运用,因为没有最后一次重复。因此无限次重复博弈分析的主要方法是构造法,即根据特定效率意义等构造了博弈完美纳什均衡。此外,也可以运用某些技巧解决问题,如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。 从博弈的结果看,无限次重复博弈的效率往往高于有限次重复博弈,有些在有限次重复博弈中无法实现的效率较高的结果,在无限次重复博弈中有可能实现。例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。两类重复博弈民间定理的差异也说明了这一点。 最后,在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题,在我限次重复博弈问题中这是必须考虑的。 上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别,区分研究这两类博弈问题是非常重要的,在实践方面的主要启发是促进和保持经济关系的长期稳定性,对于提高社会经济效率等常常有非常重要的意义。 6、用画线法容易找出该博弈的两个纯策略纳什均衡(T,L)和(M,R)。这两个纳什均衡的得益都帕累托劣于(B,S)。一次性博弈中效率较高的(B,S)不可能实现。但该博弈的结构表明存在双方合作的利益,在两次重复博弈中也有构造惩罚机制的条件,因此我会考虑运用试探合作的触发策略争取部分实现(B,S),提高博弈的效率。 我作为博弈方1会采用这样的触发策略:第一次重复采用B;第二次重复时,如果前一次的结果是(B,S),则采用M,如果前一次的结果是其他,则采用T。如果另一个博弈方有同样的分析能力,或者比较有经验,那么他(或她)也会采用相似的触发策略:在第一次重复时采用S;第二次重复时,如果前一次的结果是(B,S),则采用R,否则采用L。 双方采用上述触发策略构成一个子博弈完美纳什均衡,因此是稳定的。这时候前一次重复实现了(B,S),提高了博弈的效率。 当然,上述触发策略也是有风险的,因为当另一个博弈方不理解和没有采用上述策略时,我的得益会较低。当然如果考虑到人们具有学习进步的能力,而且缺乏分析和学习能力,采用效率较低策略的博弈方长期中会逐步被淘汰掉,那么采用上述触发策略的合理性就得到了进一步的支持。

博弈论心得体会

博弈论心得体会 最初选择博弈论,是因为看了《美丽心灵》电影后,因而对John Forbes Nash Jr和博弈论产生了浓厚的兴趣。当看到选修课新开了博弈论,简直激动的不能自已,迫不及待就报名参加了。而在我的进一步对《博弈论》的学习下,我懂得了这门课程在我们的生活中无处不在。 博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论思想古已有之,中国古代的《孙子兵法》等著作就不仅是一部军事著作,而且算是最早的一部博弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。 在社会中,人与人之间的对抗和较量是一个不容回避的话题,只有直面这些问题,个人才更有可能获得成功的机会。在所有的对抗和较量中,其胜负成败常常取决于3个基本的因素:机会或者说运气、体能和智能。通过抛硬币来赌输赢是纯粹依赖于个人运气的游戏;百米赛跑的胜负基本上取决于个人的全身技能;而篮球赛、战争等对抗,虽然也会受到运气的影响,体能也很重要,但决定胜负的更重要的因素是头脑技能的较量。 头脑技能是一种策略技巧,或者说是在谋略方面的造诣。既然世间大多数对抗都与头脑技能有关,因此人们试图获得成功,就有必要研究在对抗局势中如何策略性地选择自己的行动。而今,博弈论就是一门专门研究互动局势下人们的策略行为的学问。事实上,每个人每天都在与他人打交道,或竞争或合作。身处这样高度互动的环境之中,无论一个人是否知道博弈论,实际上他都不断地在与他人进行博弈,无论是他的父母、亲人、兄弟、老师还是商场对手、政治敌人……一个人可能不知道博弈论为何物,但是他的确常常在与他人进行着对抗和较量,在进行着一场又一场博弈;而生存本能,也让人们在不知不觉中学会了不少技巧。难怪经济学家萨缪尔森这样说着:“要在现代社会做一个有文化的人,你必须对博弈有一个大致的了解。”不过,对于大多数的人来说,学习博弈论并不是一件轻松的事情。 因为正式的博弈理论往往是用数学语言表达出来的,而社会中的大多数人都有数学恐惧症,虽然对于少数人来说数学的形式是那么优美,但大多数人把博弈论的学习看做是一件艰难的而痛苦的事情。 如果我们能熟练地掌握这一部分博弈论知识,对我们的学习和工作都大有裨益。深感短短一个学期的时间,对于博弈论这一门独具魅力的课程,只是从皮毛上略有了解。尽管如此,我还是学会了一种以博弈的观点来思考、分析、判断、解决问题的方法。就好比囚徒博弈的现象,我以前可能能够猜到结果,但这只是知其然而不知其所以然罢了。然而现在可就不同了,相似的问题我都能够用所学的博弈论知识去解释,能够了解其本质了。 我学过一段时间博弈论,一些思维过程中也可能自觉不自觉地使用一些博弈论思想,当制订政策或游戏规则,要保证所有人有参与积极性。这来源于“纳什均衡”概念,说起来当然简单。但我自己觉得,以前所知道的这条道理——制订游戏规则要保证所有人有参与积极性——是简单接受,没有逻辑,或者,在直觉层次觉得这是对的,但没有认识到它为什么对。千万不能把别人当傻瓜,如果把别人当傻瓜,吃亏的是自己,就像那个卖猫的故事。

产业经济学(王俊豪)第七章复习题答案

第七章博弈论与企业策略性行为 1.策略性行为的含义,其研究的市场基础与方法分别是什么? 答: 策略性行为是指一个企业旨在通过影响竞争对手对该企业行动的预期,使竞争对手在预期的基础上做出对该企业有利的决策行为。策略性行为的市场基础是寡占或垄断市场。策略性行为的研究方法主要是博弈论和信息经济学的运用。 2.什么是限制性定价? 答: 限制性定价是通过原有企业的当前价格策略来影响潜在企业对进入市场后利润水平的预期,从而影响潜在企业的进入决策。 3.什么是掠夺性定价? 答: 掠夺性定价是指原有企业将价格削减至对手平均成本之下,即使自己遭受短期损失,也要将对手驱逐出市场或者遏制进入。一旦对手离开市场,原有企业就会提高价格以补偿掠夺期损失。 4.合作策略性行为有哪两大类?简述明确合作策略性行为的商业实践。 答: 合作策略性行为是指企业旨在协调本行业各家企业行动和限制竞争而采取的一些行为。合作策略性行为分为默契合作策略性行为和明确合作策略性行为加以分析。 在没有涉及到信息的模型中,每个企业都知道与其他企业接触时会确定的协议,并且能够及时发现欺骗行为并加以惩罚。在这种情况下,这些企业就无需明确地合谋。但是现实中信息不对称的情况是广泛存在的。比如我们不排除

在一些行业中,企业的价格易于被竞争对手察觉,但是在另外一些行业中,价格可能在某种程度上被掩盖起来。比如企业只把产品卖给少数大买主(交易次数少,但每份订单大的情形)的时候。在这种情况下,单靠默契合作是不够的,而明确合作策略性行为的多种商业实践本质就是解决寡头合作企业间的信息不对称问题。 5.博弈论的主要内容是什么? 答: 一个完整的博弈应至少包含如下三项要素: (1)博弈的参加者,也称为局中人或博弈方。 (2)策略空间。 (3)局中人的盈利函数。 策略空间、盈利函数以及局中人的与博弈有关的特征等知识构成博弈的信息,从信息完备与否的角度,博弈可以分为完全信息与不完全信息两类。完全信息是指每一个局中人对于自己以及其他局中人的策略空间、盈利函数等知识有完全的了解,反之,则为不完全信息。 按照局中人行动的先后次序,如果局中人同时选择行动,称为静态博弈。如果局中人的行动有先后顺序,后行动者可以观察到先行动者的行动,并在此基础上采取自己最有利的策略,称为动态博弈。 6.简述新产业组织理论。 答: 在20世纪70年代以后由于新的研究方法引入而出现的新产业组织理论(NIO),它的研究焦点是策略性行为。新产业组织理论的兴起和发展对传统产业组织理论的分析方法和分析范式提出了重要挑战。一方面,新产业组织理论超越了传统哈佛学派的SCP分析范式。另一方面,新产业组织理论也对芝加哥学派的静态的价格—产出框架提出了质疑。以博弈论和信息经济学为方法论基础的新产业组织理论则明确了策略性行为在产业组织理论中的核心地位。正如泰

博弈论三大经典案例

经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: ?若对方沉默、背叛会让我获释,所以会选择背叛。 ?若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 由囚徒困境可以写出类似的员工困境: 一名经理,数名员工; 前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作 如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作 如果所有人都不听从经理吩咐,则经理下岗 但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

相关文档