文档库 最新最全的文档下载
当前位置:文档库 › 演化博弈论(清华大学)

演化博弈论(清华大学)

演化博弈论(清华大学)
演化博弈论(清华大学)

进化博弈 Evolutionary Games
第13章 Chapter 13
进化博弈 Evolutionary Games
目前为止我们学过了具有多种不同特征的博弈: We have so far studied games with many different features:
同时和序贯博弈 Simultaneous and sequential moves 零和与非零和博弈 Zero-sum and non-zero-sum payoffs 操纵未来博弈规则的策略性行动 Strategic moves to manipulate rules of games to come 一次性和重复博弈 One-shot and repeated play 许多人同时进行的集体博弈 Games of collective action in which a large number of people play simultaneously
Slide 2

进化博弈 Evolutionary Games
所有这些博弈中的参与者都是理性的:每个参 与者…… All the players in all these games are rational: each player……
……具有内在一致的价值体系 has an internally consistent value system ……能够计算其策略选择的后果 can calculate the consequences of her strategic choices ……作出最符合其利益的选择 makes choice that best favors her interests
Slide 3
进化博弈 Evolutionary Games
对理性可能的替代方法可以从生物学的进化和进化动 力学中找到,在那里…… One possible alternative to rationality can be found in the biological theory of evolution and evolutionary dynamics, where……
……好的策略可以得到更多的奖励 good strategies will be rewarded with higher payoffs ……参与者可以观察或模仿成功者并试验新的策略 players can observe or imitate success and experiment with new strategies ……随着参与者在参加博弈中获得经验,好的策略将会得到 更经常的使用,坏的策略得到更少的使用。 good strategies will be used more often and bad strategies less often, as players gain experience playing the game.
Slide 4

内容提要 Outline
*框架 The framework (*重点或难点) *囚徒困境 Prisoners’ dilemma 小鸡 Chicken 保证博弈 The assurance game *不同物种间作用 Interactions across species 鹰鸽博弈 The hawk-dove game *种群中有三种表现型 Three Phenotypes in the Population 一般理论 Some General Theory 群体博弈(略) Playing the field 合作与利他的进化
Slide 5
框架 The Framework
生物学中的进化过程提供了社会科学家使用的 博弈论的平行物。 The process of evolution in biology offers a parallel to the theory of games used by social scientists. 这一理论建立在三个基本原则上: This theory rests on three fundamentals:
异质性 Heterogeneity 适应性 Fitness 选择 Selection
Slide 6

框架 The Framework
动物行为的相当一部分是由物种决定的;一个或多个 基因的联合体(基因型)支配着某一特定的行为模式 (称为行为表现型)。 A significant part of animal behavior is generically determined; a complex of one or more genes (genotype) governs a particular pattern of behavior, called a behavior phenotype. 例子 Examples
鸟翅膀的空气动力学特征 Aerodynamic characteristics of a bird’s wings 好斗或者合作的行为 Aggressive or cooperative behavior 筑巢的位置 Locations of nesting sites
Slide 7
框架 The Framework
自然界基因库的多样性保证了种群当中表现型 的异质性。 Natural diversity of the gene pool ensures a heterogeneity of phenotypes in the population. 某些行为比其他行为更适合于当前环境,一种 表现型的成功可以用适应性来定量测量。 Some behaviors are better suited than others to the prevailing conditions, and the success of a phenotype is given a quantitative measure called its fitness.
Slide 8

框架 The Framework
更加适应的表现型在下一代中就会比更不适应 的表现型数量更多。 The fitter phenotypes then become relatively more numerous in the next generation than the less fit phenotypes. 这一选择过程就是一个改变基因型和表现型的 比例并最终导致稳定状态的动态过程。 This process of selection is the dynamic that changes the mix of genotypes and phenotypes and perhaps leads eventually to a stable state.
Slide 9
框架 The Framework
不时的,偶然因素导致新的基因变异。 From time to time, chance produces new genetic mutations. 许多这样的突变产生的行为(表现型)都不适应环境,逐 渐消失。 Many of these mutations produce behavior (that is, phenotypes) that are ill suited to the environment, and they die out. 偶尔地,变异导致的新的表现型更加适应环境。这样的变 异基因就能够成功地侵入种群,即扩展成为群体的重要部 分。 But occasionally a mutation leads to a new phenotype that is fitter. Then such a mutant gene can successfully invade a population – that is, spread to become a significant proportion of the Slide 10 population.

框架 The Framework
如果一个群体不能被任何变异侵入, 生物学家就将这一群 体的构成及其当前的表现型称为进化稳定的。 Biologists call a configuration of a population and its current phenotypes evolutionary stable if the population cannot be invaded successfully by any mutant. 这是一个静态的检验;通常应用的是一个更加动态的标准: 一个构成是进化稳定的,如果它是从群体的任意给定的表 现型构成开始的、动态选择过程的极限结果。 This is a static test; but often a more dynamic criterion is applied: a configuration is evolutionary stable if it is the limiting outcome of the dynamic of selection, starting from any arbitrary mixture of phenotypes in the population.
Slide 11
框架 The Framework
一种表现型的适应性取决于个别生物体与环境的关系。 The fitness of a phenotype depends on the relationship of the individual organism to its environment. 它还取决于存在于环境中的不同表现型的比例。 It also depends on the whole complex of the proportions of different phenotypes that exist in the environment. 对于我们的目的来说,这一物种内部表现型之间的相 互作用是最有意思的部分。 For our purpose, this interaction between phenotypes within a species is the most interesting part of the story.
Slide 12

框架 The Framework
进化的生物过程和博弈论是非常平行的。 The biological process of evolution finds a ready parallel in game theory.
表现型与策略 Phenotype vs. Strategy 适应性与收益 Fitness vs. Payoffs
Slide 13
框架 The Framework
因为种群是表现型的混合,从种群中选出的不同配对 就将不同的策略组合带入他们的相互作用。 Because the population is a mix of phenotypes, different pairs selected from it will bring to their interactions different combinations of strategies. 某一表现型的适应性的实际定量测度标准是它在与种 群中其他表现型的所有相互作用中得到的平均收益。 The actual quantitative measure of the fitness of a phenotype is the average payoff that it gets in all its interactions with others in the population.
Slide 14

框架 The Framework
进化博弈理论看起来像是通往博弈论的新途径 的一个现成框架,它放松了理性行为的假设。 The theory of evolutionary games seems a ready-made framework for a new approach to game theory, relaxing the assumption of rational behavior. 策略遗传的思想可以在生物学之外其他的理论 应用中得到更广泛的阐释。 The idea of inheritance of strategies can be interpreted more broadly in applications of the theory other than biology. Slide 15
框架 The Framework
在社会经济博弈中,策略“优胜劣汰”的原因有 别于生物学中严格的遗传机制: The reasons that the fitter strategies proliferate and the less fit ones die out in socioeconomic games differs from the strict genetic mechanism of biology:
观察和模仿 Observations and Imitations 有目的的思考和对以往经验方法的修改 Purposive thinking and revision of previous rules of thumb 有意识的实验 Conscious experimentation Slide 16

框架 The Framework
为什么参与者要出这样的策略? Why a player plays such a strategy?
理性选择 Rational choices 遗传 Genetics 社会化、文化背景、教育 Socialization, cultural background, educations 依据过去经历的经验方法 A rule of thumb based on past experience
社会会不会最后变成所有的政治家都只关心重新当选, 所有企业都只关心利润? Will society end up with a situation in which all politicians are concerned with reelection, and all firms with profit?
Slide 17
框架 The Framework
生物博弈的进化稳定构成可以有两种。 Evolutionary stable configurations of biological games can be of two kinds. 单态:单独一种表现型被证明比其他表现型更适应,种群变 为仅由它构成。 Monomorphism: A single phenotype proves fitter than any others and the population comes to consist of it alone. 在这种情况下,这个唯一主导的策略被称为进化稳定策略。 In this case, the unique prevailing strategy is called an evolutionary stable strategy (ESS). 多态:两个或更多表现型同样适应(并比其他没有出现的更 适应);因此他们可能以某种比例共存。 Polymorphism: Two or more phenotypes are equally fit (and fitter than some others not played); so they may be able to coexist in certain proportions. Slide 18

框架 The Framework
组成进化博弈的完整设定是: The whole set-up which constitutes an evolutionary game is:
种群 The Population 其可能的表现型的集合 Its conceivable collection of phenotypes 表现型相互作用的收益矩阵 The payoffs matrix in the interactions of the phenotypes 与其适应性相关的、表现型在种群中比例的进化规则 The rule for the evolution of population proportions of the phenotypes in relation to their fitness
种群的进化稳定的构成可以称为进化博弈的一个均衡。 An evolutionary stable configuration of the population can be called an equilibrium of the evolutionary game. Slide 19
囚徒困境 Prisoners’ Dilemma
假定种群由两种表现型组成:合作者和背叛者。 Suppose a population is made up of two phenotypes: cooperators, defectors. 种群中的每一个体(合作者或者背叛者)被随 机地选择与另一个随机选择的对手竞争。 Each individual (either a cooperator or a defectors) in the population is chosen at random to compete against another random rival.
Slide 20

囚徒困境 Prisoners’ Dilemma
COLUMN 20 (Defect) ROW 20 (Defect) 288, 288 26 (Cooperate) 360, 216 324, 324
Slide 21
26 216, 360 (Cooperate)
囚徒困境 Prisoners’ Dilemma
用x表示种群中合作者的比例。 Let x be the proportion of cooperators in the population. 则一个典型的合作者的预期收益为, Therefore a typical cooperator’s expected payoff is, 324x+216(1-x) 一个典型的背叛者的预期收益为, A typical defector’s expected payoff is, 360x+288(1-x) 显然有,It is immediately apparent that, 360x+288(1-x)>324x+216(1-x), for all x between 0 and 1. Slide 22

囚徒困境 Prisoners’ Dilemma
因而背叛者有更高的预期收益,比合作者更适应。 Therefore a defector has a higher expected payoff and is fitter than a cooperator. 这会导致背叛者比例的逐“代”上升(x下降),直到整 个种群都由背叛者组成。 This will lead to an increase in the proportion of defectors (a decrease in x)from one “generation” of players to the next, until the whole population consists of defectors.
Slide 23
囚徒困境 Prisoners’ Dilemma
如果整个种群都由背叛者组成呢? What if the population initially consists of all defectors? 那么这种情况下不会有变异(试验性)的合作者可以 生存和繁殖以改变种群。 Then in this case no mutant (experimental) cooperator will survive and multiply to take over the population. 换句话说,背叛者的种群不能被变异的合作者成功侵 入。 In other words, the defector population cannot be invaded successfully by mutant cooperators.
Slide 24

囚徒困境 Prisoners’ Dilemma
我们的分析表明背叛者比合作者有更高的适应性,一 个完全由背叛者组成的种群不能被变异的合作者侵入。 Our analysis shows that both that defectors have higher fitness than cooperators and that an all-defector population cannot be invaded by mutant cooperators. 因而种群的进化稳定构成是单态的,由单一的策略或 表现型“背叛”组成。 Thus the evolutionary stable configuration of the population is monomorphic, consisting of the single strategy or phenotype Defect.
Slide 25
囚徒困境 Prisoners’ Dilemma
我们就把“背叛”称为这一进行困境博弈种群的 进化稳定策略。 We therefore call Defect the evolutionary stable strategy for this population engaged in this dilemma game. 如果博弈有一个严格的优势策略,那么该策略 也将是ESS。 If a game has a strictly dominant strategy, that strategy will also be the ESS.
Slide 26

重复囚徒困境 The Repeated Prisoner’s Dilemma
Twice-Repeated Prisoners’ dilemma
576=288*2, 648=324*2=360+288 504=216+288
COLUMN A (Always defect) 576, 576 T (Tit-for tat) 648,504
ROW
A (Always defect) T (Tit-for tat)
504, 648
648, 648
Slide 27
重复囚徒困境 The Repeated Prisoner’s Dilemma
A只是弱优势的。容易看到A也是ESS。 A is only weakly dominant. And it is easy to see that A is an ESS. T是不是另一个ESS呢? Is T another ESS?
注意到:(T, T)是该博弈的理性博弈理论分析的纳 什均衡。 Notice that: (T, T) is a Nash equilibrium in the rational game theoretic analysis of this game.
Slide 28

重复囚徒困境 The Repeated Prisoner’s Dilemma
如果种群一开始全是T,有少数几个变异者进入,那么变异者在大多数时 间内会遇到占统治地位的T型,在与T型的对决中,会和T型本身做得一 样好。 If the population is initially all T and a few mutants entered, then the mutants would meet the predominant T types most of the time and would do as well as T does against another T. 但是,偶尔的,一个A变异者将会遇到另一个A变异者,在这一对决中, 她会比T遇到A时做得更好。 But occasionally an A mutant would meet another A mutant, and in this match she does better than would a T against A. 因此,变异者会比占统治地位表现型中的成员有略高的适应性。 Thus the mutants have just slightly higher fitness than that of a member of the predominant phenotype. 这一优势导致种群中变异者的比例增加(虽然较慢)。因而全T种群可以 被A变异者成功入侵;T不是ESS。 This advantage leads to an increase, albeit a slow one, in the proportion of mutants in the population.Therefore an all-T population can be invaded successfully by A mutants; T is not an ESS. Slide 29
重复囚徒困境 The Repeated Prisoner’s Dilemma
我们的推理依赖于对ESS的二重检验。 Our reasoning relies on two tests for an ESS. 首先我们看当,当遇到占统治地位的类型时,变异者是否比占统 治地位的类型做得更好。 First we see if the mutant does better or worse than the predominant phenotype when each is matched against the predominant type. 如果这一主标准给出一个清楚的答案,问题就解决了。 If this primary criterion give a clear answer, that settles the matter. 如果该主标准给出平分,我们就使用一个“加时赛”,或次标准: 在遇到变异者时,变异者是否比占统治地位的类型做得更好? But if the primary criterion gives a tie, then we use a tiebreaking, or secondary, criterion: does the mutant fare better or worse than a predominant phenotype when each is matched against a mutant?
Slide 30

重复囚徒困境 The Repeated Prisoner’s Dilemma
Thrice-Repeated Prisoners’ dilemma
864=288*3, 972=324*3 792=216+288*2 936=360+288*2
COLUMN A (Always defect) 864, 864 T (Tit-for tat) 936, 792
ROW
A (Always defect) T (Tit-for tat)
792, 936
972, 972
Slide 31
重复囚徒困境 The Repeated Prisoner’s Dilemma
两种类型的相对适应性依赖于种群构成:每种类型在 它已经在种群中占统治地位时都更适应。 The relative fitness of the two types depend on the composition of the population: each type is fitter when it already predominates in the population. 因而当种群全是A时,T不能成功侵入,反之亦然。 Therefore T cannot invade successfully when the population is all A, and vice versa. 现在有两个可能的种群的进化稳定构成:全A或全T。 Now there are two possible evolutionary stable configurations of the population: all-A or all-T.
Slide 32

重复囚徒困境 The Repeated Prisoner’s Dilemma
Fitness
T type
972 936
A type
864 792
0
x*=2/3 1 Proportion x of T types in Population Slide 33
重复囚徒困境 The Repeated Prisoner’s Dilemma
如果开始时种群中恰好是x=2/3? What if the initial population has exactly x=2/3? 一旦任何一种类型的变异者出现,该构成就不能维持。 Such a configuration can sustain only until a mutant of either type surfaces. 它可以被看成是一个不稳定的均衡;但从严格的生物 过程的逻辑来看,它根本不是一个均衡。 It can be regarded as an unstable equilibrium;but in the strict logic of the biological process, it is not an equilibrium at all.
不过,注意到双方出(2/3T, 1/3A)构成了该博弈的理性博弈 版本的混合策略纳什均衡。 Notice however (2/3T, 1/3A) for both players forms a mixed-strategy Nash equilibrium in the rational- 34 Slide player version of this game.

重复囚徒困境 The Repeated Prisoner’s Dilemma
n-fold-Repeated Dilemma (n>2) COLUMN A (Always defect) T (Tit-for tat)
ROW
A 288n, 288n 288n+72, 288n-72 (Always defect) T 288n-72, 324n, 324n 288n+72 (Tit-for tat)
Slide 35
重复囚徒困境 The Repeated Prisoner’s Dilemma
n=3, x*=2/3 n=4, x*=2/4=1/2 …… n=10, x*=2/10=0.2, …… 但博弈重复次数越多,合作就可以从越大范围的初始 条件中产生。 Cooperation emerges from a larger range of the initial conditions when the game is repeated more times.
Slide 36

比较进化和理性参与者模型 Comparing the Evolutionary and Rational-player Models
一个ESS必然是有相同收益结构、由有意识的 理性参与者进行的博弈的纳什均衡解。 An ESS must be a Nash equilibrium of the game played by consciously rational players with the same payoff structure. 因而,进化方法提供了对理性方法的隐含的支 持。 Thus the evolutionary approach provides a backdoor justification for the rational approach.
Slide 37
比较进化和理性参与者模型 Comparing the Evolutionary and Rational-player Models
虽然ESS必然是对应的理性参与者博弈的纳什 均衡,反过来却未必。 Although an ESS must be a Nash equilibrium of the corresponding rational-player game, the converse is not true. 因而稳定的生物学概念可以帮助我们从理性博 弈的多重纳什均衡中进行选择。 Thus the biological concept of stability can help us select from a multiplicity of Nash equilibria of a rationally played game. Slide 38

小鸡 Chicken
B Wimp (Always swerve) 0, 0 Macho (Always straight) -1, 1
A
Wimp (Always swerve) Macho (Always straight)
1, -1
-2, -2
Slide 39
小鸡 Chicken
Fitness 1
Macho
1/2 0 1
Proportion x of Machos in Population
0
Wimp
-1 -2
50-50的混合是稳定的多态ESS。 The 50-50 mix will be the stable polymorphic Slide 40 ESS.

博弈论入门进阶书籍大全——如何成为智谋博弈大师

博弈论入门进阶书籍大全——如何成为智谋博弈大师 选书如选老师,因此选择书籍是一件十分重要的事。在此,向给大家推荐与博弈论相关书籍,让你少走弯路,成为智谋博弈大师! 博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 入门书籍: 《妙趣横生博弈论》 21世纪的经典博弈书——《妙趣横生博弈论》。2005年诺贝尔经济学奖获得者托马斯·谢林“一生中最不能错过的一本书”——“西方孙子兵法”——《妙趣横生博弈论》。该书由阿维纳什K.迪克西特和巴里J.奈尔伯夫合著。核心思想:在本性上,人们都倾向于以自我为中心,只关注自己的理解和自身的需要。但博弈的艺术要求,不要以自我为中心,要理解他人的立场、观念以及看重什么,并运用这种理解来指导行动。

《身边的博弈》 《身边的博弈》用浅显易懂的语言、近百个故事讲述了博弈论的基本原理及其在现实世界的运用,使你通过快乐地学习生活中无时不在的博弈掌握竞争的技巧。 《博弈论的诡计》

博弈论的目的在于巧妙的策略,而不是解法。学习博弈论的目的,不是为了享受博弈分析的过程,而在于赢得更好的结局。博弈的思想既然来自现实生活,它就可以高度抽象化地用数学工具来表述,也可以用日常事例来说明,并运用到生活中去。博弈时时存在,它就在你的身边。《博弈论的诡计》就是试图通过日常生活中常见的例子,来介绍博弈论的基本思想及运用,并且寻求用种智慧来指导生活决策的方法。阅读本书,我们除了了解到令人震撼的社会真实轨迹之外,还可以学到最合适的为人处世方法。 《太极博弈原理》

演化博弈论发展

演化博弈论发展 理论部分应用部分 解(均衡)概念适应机制经济学社会学…制度学生物学 ESS NSS … REE 无理性(自然选择)部分理性(学习) (在不同情形下定义及性质不同) 复制动态路径学习模仿信念学习 国外部分应用研究: [1]Basu(1995)研究了公民规范和演化之间的关系 [2]Friedman & Fung(1996)以日本和美国的企业组织模式为背景,用演化博弈论分 析了在无贸易和有贸易的情况下企业组织模式的演化 [3]Bester & Guth(1998)用演化博弈论研究了人类在经济活动中利他行为的存在性 及其演化稳定性 [4]Dufwenbery & Guth(1999)在双寡头垄断竞争的情形下比较了间接演化法和策略代 理方法 [5]Guttman(2000)用演化博弈论研究了互惠主体在有机会主义存在的群体中是否能 够存活的问题 [6]青木昌彦(2001)从认知的角度提出了一个关于演化博弈论的主观博弈模型 [7]Haruvy & Prasad (2001)运用演化博弈论研究了在具有网络外部性的条件下免费软 件的最优价格和质量 [8]Kosfeld(2002)建立了德国超市购物时间反常的演化博弈模型 [9]Nyborg & Rege (2003)用演化博弈理论研究了顾忌别人感受的吸烟行为的社会规范 的形成 [10]Jasmina & John (2004)研究了不同的学习规则在公共物品博弈中仿制人类行为时 谁表现的更好的问题

[11]Daniel,Arce & Todd(2005)研究了四种不同类型的囚徒困境博弈,指出要达成合作所需的演化和信息要求 [12]Josef Hofbauera & William H. Sandholmb(2007)讨论了具有随机扰动得益的演化博弈问题并将其应用于种群博弈问题的研究 国内相关研究曾涉及的问题: 土地制度变迁的演化博弈分析;电子商务中企业行为分析;企业会计信息披露博弈;金融体制改革风险研究;农民工权益维护分析;信息安全问题研究;营销合作系统中的竞争与合作;知识链组织间知识共享的研究;经济组织多样性研究;“以市场换技术”的演化博弈分析;新型农村资金合作体系的构建分析;零售业业态创新研究;区域经济协调发展研究(改革&保守);水污染控制系统;电力市场竞价分析;….. 博弈情形的具体分类: 有限群体/无限群体;连续时间/离散时间;同质/异质;双人/多人;对称/非对称;有限记忆/无限记忆;各种不同学习方式;各种噪音;… 部分演化博弈论研究者的主要贡献: 国外近五年来相关文献研究内容:

演化博弈论简介

演化博弈论简介 说明:这篇东西是我上周六在浙大思想讨论班上做演讲的讲稿和主要内容。讲完以后,叶航老师提出了很多宝贵的意见。我也正好乘这机会把没有讲或者没有讲清楚的东西梳理了一下。整理过程中还发现了了很多问题,请大家批评。 丁丁1994年有一篇重要的文章,介绍发展经济学的最新进展。他比较了诺斯(North)的制度变迁理论,罗默(Romer),卢卡斯(Lucas)等的内生增长理论,哈耶克的“自发秩序论”,重复博弈和演化博弈论等理论,这些理论的共同特点是“动态”(dynamic)。传统新古典经济学是静态的,重视均衡点,但很难进行历史的研究。正因为如此,这些新理论才显示出强大 的生命力,获得广泛运用。 我们这里讲演化博弈(evolutionary game theory),它显然有2条理论来源,一是演化理论,一是博弈论。 先来看演化理论,我首先要纠正一个常见的误解,即演化均衡是帕累托最优的,或者说最大化整个社群的福利。我们要注意到,演化均衡不等于一般均衡,等会我会给出一些严格的定义。从福利经济学第一定理可以得知,一般均衡必然是帕累托最优的,即所谓的看不见的手的含义,但是演化均衡并没有类似的定理。我们用常识来分析,如果演化均衡最大化社群的福利,那么什么是社群的福利呢?是个体的总数最大吗,是个体的多样性最多吗,抑或是个体预期存活概率最大?即使我们能为适应性(fitness)找出合适的测量方法,我们也无法保证演化是朝向个体适应性最大的方向演化。我这里用演化,避免用演进,可以减少误解。 演化理论中有两条最重要的机制。一个叫自然选择,即不是每种生物都有相同的概率在下一期存活。在这个世界上,有些生物个体(或者人)特别幸运,他们能活下去,但还有些个体就倒霉了,他们会被淘汰。我们今天都活着,可见我们的祖先都还是幸运的,他们有后代继承了他们的基因。我特别要强调自然选择,对于我们来说是被选择(be selected),我们能决定我们的行为和策略,但不能决定我们是否被选择,那是上帝的事情。严复说物竞天择,就是这个意思。 另一种机制叫突变机制(mutant),这保证了种群的变化。如果没有突变,那么这个世界上存活下来的物种就会越来越少,最后只剩下一种。对于突变机制,我也要强调它是没有方向性的,可能会提高个体的适应性,但更有可能降低个体的适应性。突变同样是上帝的选择,微观个体无能为力。 接下来,我们就可以回顾演化经济学的思想史了。我在幻灯片里给出了一长串人的名字,他们都可以看作是具有演化思想的经济学家,都是演化经济学的先驱。斯密,马克思,门格尔,马歇尔,凡勃仑,熊彼特,直到哈耶克。我尤其要强调雄彼特的贡献,他研究经济发展和经济周期,提出了著名的“创新”思想。这带有明显的动态的特征,并影响了随后的尼尔森和温特。 安德森把熊彼特以后,尼尔森-温特以前这段时间(1930-1970)比作黑暗时代(当然这仅指演化经济学而言,对于新古典经济学无疑是黄金时代呢),这段时间很少有人关心动态的演化的经济学理论。(阿尔奇安也许是个例外) 从70年代初开始,尼尔森和温特提出了一系列演化经济学模型。同时,梅纳德.史密斯在1973年提出了著名的演化稳定策略,奠定了演化经济学的基础。从此,演化经济学可以算真正诞生了。 尼尔森自称是熊彼特的忠实信徒,而温特是达尔文进化论的信徒,他们的演化理论非常鲜明地具有这些特征。计算机能够很好地模拟生态学上物种数量的演化,因而也被广泛地用于经济模型的演化模拟。尼尔森-温特的多数模型都很容易被改编成计算机模型,用现实数据进

演化博弈论小结

演化博弈论和学习行为的小结 1.RD 模型 ()[()()]()s s x u x u x F s =-= 该模型的来源由Van Damme(1991)的基因复制动态过程的非代际交叠模型和Binmore(1992), Samue(1997)的基因复制动态过程的代际交叠模型分别得出。 2.ESS 的概念 定义:①(,(1))(,(1))u x x y u y x y εεεε-+>-+ ②(1)(,)(,)(1)(,)(,)u x x u x y u y x u y y εεεε-+>-+ ③(,)(,)u x x u x y >或者如果(,)(,)u x x u x y =那么有 EGT 其他引申出的均衡、定理等 ESS 概念 学习模型 模仿 信念学习 路径学习 RD 模型

(,)(,)u x y u y y > PS:NSS 就是在ESS 的定义中将大于号变为大于等于号。 3.其他引申出的一些均衡、均衡之间的关系以及一些定理 3.1 ①EE : 是演化动态过程的任一渐进稳定不动点。其判定方法可以如下: ()0F s =;()/0dF s ds <。 ②ES : (对称二人博弈中)如果x *是X 的子集,且满足条件: a 、x *中每个元素都是一个NSS b 、x X *∈,(,)(,)u x x u y x =且(,)(,)u x y u y y =,则有y X *∈。 ③REE 对称策略(x,x )是REE 充分必要条件是存在某个 ε∈(0,1),使如果x x '≠且 (0,)εε∈,有((1)x B R x x εε ''?+- ④EES x X '∈是EES 的充分必要条件是, 它是最小的非空子集使得:

博弈论 武警工程学院 考试题

第1部分《信息经济学》课程考试内容 1.Neumann-Mogenstern效用函数 参考资料:高山晟ch5、Geoffrey ch2 ?期望效用函数 ?Neumann-Morgenstern公理(简称N-M 公理) ?对风险的态度 ?风险的度量(绝对风险厌恶的Arror-Pratt系数) 2.完全信息静态博弈 参考资料:张维迎ch1.1,Gibbons ch1.1 ?本章要求掌握内容 ?博弈论基本概念 ?博弈的战略式表述 ?理解Nash均衡 ?占优战略均衡 ?重复剔除劣战略的占优均衡 ?混合战略Nash均衡(概念与求解)(Gibbons1.3、zwy1.4) ?Cournot双头垄断模型 ?Hotelling价格竞争模型(zwy1.3-2) ?公共地悲剧(Gibbons1.2.D、zwy1.3-3) ?本章选读文献 3.完全信息动态博弈 ?完全信息动态博弈的扩展式表述(Gibbons2.4.A、zwy2.1) ?子博弈精练Nash均衡(Gibbons2.4.B、zwy2.3-1) ?求解完全信息动态博弈的逆向归纳法(Gibbons2.1.A、zwy2.3-2) ?有限阶段重复博弈(Gibbons2.3.A) ?无限阶段重复博弈(理解触发战略(严酷战略)、无名氏定理(Friedman定理))(Gibbons2.3.B、zwy2.5一二节) ?序贯谈判(讨价还价)模型(Gibbons2.1.D)

·2· ?Cournot双头垄断模型(Gibbons)(Gibbons2.1.B) ?有工会企业的工资与就业(Gibbons2.1.C) ?工作竞赛模型(Gibbons2.2.D) ?Gournot双头垄断下的串谋(Gibbons2.3.C) ?效率工资(Gibbons2.3.D) 4.不完全信息静态博弈 ?不完全信息静态博弈的标准式表述(Gibbons3.1.B) ?贝叶斯Nash均衡的定义(Gibbons3.1.C) ?非对称信息下的Gournot模型(Gibbons3.1.A) ?一级密封价格拍卖(Gibbons3.2.B) ?双向拍卖(Gibbons3.2.C) 5.不完全信息的动态博弈 ?精练贝叶斯Nash均衡(Gibbons4.1、zwy4.1) ?信号传递(理解三种均衡形式并会求解)(Gibbons4.2.A、zwy4.1)?Spence就业市场信号模型(Gibbons4.2.B) ?精练贝叶斯均衡的再精练(结合市场就业模型)(Gibbons4.4)6.信息经济学基本模型 ?模型描述(Stadler2.2) ?对称信息合约下的最优支付机制(Stadler2.3.1) ?对称信息合约下的最优努力水平(Stalder2.3.2) 7.道德风险问题 ?不对称信息下的道德风险模型构建(Stalder3.2) ?两种努力水平下的代理人选择(Stalder3.3) ?简单的连续努力水平下代理人选择(Stalder) ?委托-代理模型的一个例子(zwy5.5) 8.复杂的委托代理理论与模型 ?多阶段博弈动态模型 ?声誉模型(zwy6.1-1) ?棘轮效应(zwy6.1-2) ?效率工资下的监督问题(要求掌握)(zwy6.4-1) ?激励工资下的监督问题(要求掌握)(zwy6.4-2)

博弈论基础

博弈论 博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。参见:行为生态学(behavioral ecology)。 约翰·冯·诺依曼 博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论思想古已有之,中国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。 近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。 1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。 1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的 策墨洛(Zermelo) 基础。纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出

演化博弈论

演化博弈论 演化博弈论(evolutionary stable strategy)整合了理性经济学与演化生物学的思想,不再将人模型化为超级理性的博弈方,认为人类通常是通过试错的方法达到博弈均衡的,与生物演化具有共性,所选择的均衡是达到均衡的均衡过程的函数,因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。在理论应符合现实意义上,该理论对于生物学以及各种社会科学尤其是经济学,均大有用场。 演化博弈理论最早源于Fisher,Hamilton,Tfive~等遗传生态学家对动物和植物的冲突与合作行为的博弈分析,他们研究发现动植物演化结果在多数情况下都可以在不依赖任何理性假设的前提下用博弈论方法来解释。但直到Smith and Price(1973)在他们发表的创造性论文中首次提出演化稳定策略(evolutionary stable strategy)概念以后,才标志着演化博弈理论的正式诞生。生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了演化博弈理论的基本动态概念——模仿者动态(replicator dy—namic),这是演化博弈理论的又一次突破性发展。模仿者动态与演化稳定策略(RD&ESS)一起构成了演化博弈理论最核心的一对基本概念,它们分别表征演化博弈的稳定状态和向这种稳定状态的动态收敛过程,ESS概念的拓展和动态化构成了演化博弈论发展的主要内容。 编辑本段主要应用领域 演化证券学:演化证券学是运用生物进化原理系统阐释股市运行机理的新兴交叉学科,是证券投资研究的一个具有生命力和丰富内涵的新领域。与现代金融学的“理性人”、“有效市场”相关假设不同,演化证券学重视对“生物本能”和“竞争与适应”的研究,强调人性和市场环境在股市演化中的重要地位,是揭示股市生存法则最有潜力的前沿科学。其开山之作《股市真面目》颠覆了股市运行机理的传

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

演化博弈理论

演化博弈理论综述 班级:国贸112班 姓名:赵焌茗 学号:2011095012

第一部分概述 演化博弈理论至少自Lewontin(1960)用于解释生态现象就已经产生了,并被广泛应用于生态学、社会学及经济学等领域来研究群体行为的演化过程及其结果。进化博弈理论从有限理性的个体出发,以群体为研究对象,认为现实中个体并不是行为最优化者,个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。进化博弈理论强调系统达到均衡的动态调整过程,认为系统的均衡是达到均衡过程的函数,也就说均衡依赖于达到均衡的路径。动态概念在进化博弈理论中占有相当重要的地位,许多博弈理论家对群体行为调整过程进行了广泛而深入的研究,根据他们考虑问题的角度不同而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型;B?rgers and Sarin(1995,1997)等提出的强化动态1(Reinforcement Dynamics)模型等等。但到目前为止,在进化博弈理论中应用最多的还是由Taylor and Jonke r(1978)提出的模仿者动态(Replicator Dynamics)模型。模仿者动态是进化博弈理论的基本动态,它能较好地描绘出有限理性个体的群体行为变化趋势,由之得出的结论能够比较准确地预测个体的群体行为,因而倍受博弈论理论家们的重视。本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。 在传统博弈理论中,常常假定参与人是完全理性的,且参与人在完全信息条件下进行的,但在现实的经济生活中的参与人来讲,参与人的完全理性与完全信息的条件是很难实现的。在企业的合作竞争中,参与人之间是有差别的,经济环境与博弈问题本身的复杂性所导致的信息不完全和参与人的有限理性问题是显而易见的。 与传统博弈理论不同,演化博弈理论并不要求参与人是完全理性的,也不要求完全信息的条件。有限理性这一概念最早是由西蒙(Simon.H.A.)在研究决策问题时提出的,它是指人的行为只能是“意欲合理,但只能有限达到”。威廉姆森在研究影响交易费用的因素时,对有限理性的问题进行了归纳总结人的有限理性是由两方面的原因引起的:一方面是由于人的感知认识能力限制,它包括个人在获取、储存、追溯和使用信息的过程中不可能做到准确无误;人的有限理性的另一方面则是来自语言上的限制,因为个人在以别人能够理解的方式通过语句、数字或图表来表达自己的知识或感情时是有限制的(这或许是因为他们没有掌握到所必需的词汇,或许是因为这些词汇还不存在),不管多么努力,人们都将发现,语言上的限制会使他们在行动中感到挫折。从这两个方面而言,完全理性的人根本就不可能存在。 演化博弈论是把博弈理论分析和动态演化过程分析结合起来的一种理论。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡。演化博弈理论源于生物进化论,它曾相当成功地解释了生物进化过程中的某些现象。如今,经济学家们运用演化博弈论分析社会习惯、规范、制度或体制形成的影响因素以及解释其形成过程,也取得了令人瞩目的成绩。演化 1其实质就是个体与群体进行博弈,即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。1Selten(1980)通过对个体引入角色限制,首次考察了非对称博弈中的均衡问题,并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡”。

博弈论(2)—讲义

9.2 完全信息静态博弈 9.2.1 博弈的战略式表述 Definition A normal (strategic) form game G consists of: (1) a finite set of agent s {1,2,,}D n = . (2) strategy sets 12,,,n S S S . (3) payoff functions 12:(1,2,,)i n u S S S R i n ???→= . 囚徒B 囚徒A 完全信息静态博弈是一种最简单的博弈,在这种博弈中,战略和行动是一回事。 博弈分析的目的是预测博弈的均衡结果,即给定每个参与人都是理性的,什么是每个参与人的最优战略?什么是所有参与人的最优战略组合? 纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。 下面,我们先讨论纳什均衡的特殊情况,然后讨论其一般概念。 9.2.2 占优战略(Dominated Strategies )均衡 一般说来,由于每个参与人的效用(支付)是博弈中所有参与人的战略的函数,因此, 每个参与人的最优战略选择依赖于所有其他参与人的战略选择。但是在一些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择。也就是说,不管其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”。 Definition Strategy s i is strictly dominated for player i if there is some i i s S '∈ such that (,)(,)i i i i i i u s s u s s --'> for al i i s S --∈. Proposition a rational player will not play a strictly dominated strategy. 抵赖 is a dominated strategy. A rational player would therefore never 抵赖. This solves the game since every player will 坦白. Notice that I don't have to know anything about the other player . 囚徒困境:个人理性与集体理性之间的矛盾。 This result highlights the value of commitment in the Prisoner's dilemma – commitment consists of credibly playing strategy 抵赖. 囚徒困境的广泛应用:军备竞赛、卡特尔、公共品的供给。 9.2.3 Iterated Deletion of Dominated Strategies (重复剔除劣战略) 智猪博弈(boxed pigs )

清华大学经济博弈论期末考试05

经济博弈论(2005年秋季学期) 期末测验题 (2005/12/29) 注意:请将所有题目的答案写在答题册上,写在本试题页上一律无效(需要的图表请重画)。 1、(20 points) The following is an interpretation of the rivalry between the United States and the Soviet Union for geopolitical influence in the 1970s and 1980s. Each side has the choice of two strategies: Aggressive and Restrained. The Soviet Union wants to achieve world domination, so being Aggressive is its dominant strategy. The United States wants to prevent the Soviet Union from achieving world domination; it will match Soviet aggressiveness with aggressiveness, and restraint with restraint. Specifically, the payoff table is: Soviet Union Restrained Aggressive United States Restrained 4, 3 1, 4 Aggressive 3, 1 2, 2 For each player, 4 is best and 1 is worst. (a) Consider this game when the two countries move simultaneously. Find the Nash equilibrium.(5 points) (b) Next consider three different and alternative ways in which the game could be played with sequential moves: (i) The United States moves first and the Soviet Union moves second. (ii) The Soviet Union moves first and the United States moves second. (iii) The Soviet Union moves first and the United States moves second, but the Soviet Union has a further move in which it can change its first move. For each case, draw the game tree and find the subgame-perfect equilibrium. (3 points each for (i) and (ii); 5 points for (iii) (c) What are the key strategic matters (commitment, credibility, and so on) for the two countries?( 4 points) (a) Soviet Union has a dominant strategy of Aggressive and the Unique Nash equilibrium is (Aggressive, Aggressive), with payoffs (2, 2). (b) See the attached figure. (c) Commitment for the SU; or a promise for the SU “ R if R”. US have nothing to do. He cannot commit to move first (then the SU will choose his dominant strategy of Aggressive, the outcome remains to be the status quo); or not be necessary to threat or promise (since if the SU moves first, he must choose to Restrain, and the US need only to follow its best choice.) 2、(20 points) Consider the following game. A neutral referee runs the game. There are two players, Row and Column. The referee gives two cards to each: 2 and 7 to Row and 4 and 8 to Column. This is common knowledge. Then, playing simultaneously and independently, each player is asked to hand over to the referee either his high card or his low card. The referee hands out payoffs – which come from a central kitty, not from the players – that are measured in dollars and depend on the cards that he collects. If Row chooses his Low card 2, then Row gets $2; if he chooses his

博弈论(2)—讲义

博弈论(2)—讲义

9.2 完全信息静态博弈 9.2.1 博弈的战略式表述 Definition A normal (strategic) form game G consists of: (1) a finite set of agent s {1,2,,}D n =L . (2) strategy sets 12,,,n S S S L . (3) payoff functions 12:(1,2,,)i n u S S S R i n ???→=L L . 囚徒B 囚徒A 完全信息静态博弈是一种最简单的博弈,在这种博弈中,战略和行动是一回事。 博弈分析的目的是预测博弈的均衡结果,即给定每个参与人都是理性的,什么是每个参与人的最优战略?什么是所有参与人的最优战略组合? 纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。 下面,我们先讨论纳什均衡的特殊情况,然后讨论其一般概念。 9.2.2 占优战略(Dominated Strategies )均衡 一般说来,由于每个参与人的效用(支付)是博弈中所有参与人的战略的函数,因此,每个参

与人的最优战略选择依赖于所有其他参与人的战略选择。但是在一些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择。也就是说,不管其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”。 Definition Strategy s i is strictly dominated for player i if there is some i i s S '∈ such that (,)(,)i i i i i i u s s u s s --'> for al i i s S --∈. Proposition a rational player will not play a strictly dominated strategy. 抵赖 is a dominated strategy. A rational player would therefore never 抵赖. This solves the game since every player will 坦白. Notice that I don't have to know anything about the other player . 囚徒困境:个人理性与集体理性之间的矛盾。 This result highlights the value of commitment in the Prisoner's dilemma – commitment consists of credibly playing strategy 抵赖. 囚徒困境的广泛应用:军备竞赛、卡特尔、公共品的供给。

演化博弈论(清华大学)

进化博弈 Evolutionary Games
第13章 Chapter 13
进化博弈 Evolutionary Games
目前为止我们学过了具有多种不同特征的博弈: We have so far studied games with many different features:
同时和序贯博弈 Simultaneous and sequential moves 零和与非零和博弈 Zero-sum and non-zero-sum payoffs 操纵未来博弈规则的策略性行动 Strategic moves to manipulate rules of games to come 一次性和重复博弈 One-shot and repeated play 许多人同时进行的集体博弈 Games of collective action in which a large number of people play simultaneously
Slide 2

进化博弈 Evolutionary Games
所有这些博弈中的参与者都是理性的:每个参 与者…… All the players in all these games are rational: each player……
……具有内在一致的价值体系 has an internally consistent value system ……能够计算其策略选择的后果 can calculate the consequences of her strategic choices ……作出最符合其利益的选择 makes choice that best favors her interests
Slide 3
进化博弈 Evolutionary Games
对理性可能的替代方法可以从生物学的进化和进化动 力学中找到,在那里…… One possible alternative to rationality can be found in the biological theory of evolution and evolutionary dynamics, where……
……好的策略可以得到更多的奖励 good strategies will be rewarded with higher payoffs ……参与者可以观察或模仿成功者并试验新的策略 players can observe or imitate success and experiment with new strategies ……随着参与者在参加博弈中获得经验,好的策略将会得到 更经常的使用,坏的策略得到更少的使用。 good strategies will be used more often and bad strategies less often, as players gain experience playing the game.
Slide 4

进化博弈论读书心得

进化博弈论读书报告 汪波 1973年,梅拉德·史密斯和普瑞斯将博弈论的思想引入到生物演化的分析中,二人提出了进化稳定策略(ESS ),随着1978年, Taylor 和Jonker 发现了进化稳定策略和复制动力学之间的关系,标志着进化博弈理论的诞生,因为与复制动力学之间的关系,进化稳定策略也因此成为进化博弈理论最经典的概念。1982年,梅拉德·史密斯出版了《演化与博弈论》,该书揭示动物群体的行为变化的动力学机制,也因此书他被称为进化博弈论之父,1995年,Weibull 著作了《Evolutionary Game Theory 》,2009年初,Sandholm 出版了《Population Game and Evolutionary Dynamics 》专著,这篇读书报告是在看了这三本著作的很少的一部分内容之下,理解其中一些浅显的内容后完成的。 一、进化稳定策略最初的模型 进化博弈理论是将博弈论引入到生物学背景下产生的,当生物的特定表现型的适应度依赖于群体中的频率分布时,进化博弈论就是从这个角度来思考生物演化的问题的一种方法,古典博弈中,参与者根据自利的原则表现出理性行为,但在生物进化的背景下是不合适的,由此,理性原则被群体的动态性和稳定性取代,而自利原则则被达尔文的适应度所取代。在一些重要的假设下,将会得到博弈的一个新形式解:进化稳定策略。它是这样一个策略,如果整个群体的每个成员都采取这个策略,那么在自然选择的作用下,不存在一个具有突变特征的策略能够侵犯这个种群。 最初的简化的模型由梅拉德·史密斯和普瑞斯给出,他和普瑞斯也给出了进化稳定策略的数学式的描述定义,这一模型的本质特征是假设该群体有无限大的规模,繁衍以无性生殖的方式进行,竞争只在两个不存在任何差异的对手间展开即是成对的竞争。生物学中价值是指两个动物为了争夺资源而增加的或者减少的达尔文适应度。故我们用适应度作为最后个体的收益的衡量,假想在这个无限的种群中,有两个策略I 、J ,每一个成员都采取这两个策略之一,且策略的选择是随机的,在有竞争前个体的初始适应度为0w ,再假设整个群体中选择I 的概率为p ,()w I 、()w J 分别表示选择相应策略带来的适应度,而(,)E I J 表示个体选择策略I 而对手选择J 时的收益,其他(,)E I I 等表示类同的意义。 若每一个个体都参与到竞争当中,则有 0()=+(1-p)(,)(,)w I w E I I pE I J + (1-1) 0()=+(1-p)(,)(,)w J w E J I pE J J + (1-2) 稳定的策略具有下列性质:整个种群中几乎所有的个体都采取了这个策略,且这些个体的 适应度必将高于竞争对手或者可能出现的突变异种的适应度,否则竞争对手或者产生的突变 异种会侵害整个种群,以致种群的削弱或者毁灭等,这时此策略便不可能是稳定的策略。若 I 是进化稳定策略,则()()w I w J >,且1p =,所以当I J ≠,有 (,)(,)E I I E J I > (1-3) 当(,)(,)E I I E J I =时有 (,)(,)E I J E J J > (1-4) 满足上述条件(1-3)、(1-4)的策略就称为进化稳定策略,而上述的两个条件1-3、1-4也被认为是判别ESS 的标准条件。 上述的策略是在纯策略情形下考虑的,当策略I 是从一个可能策略集合中随机的选择而

相关文档