1、智猪博弈
假设猪圈里有一头大猪、一头小猪。
猪圈的一头有猪食槽(两猪均在食槽端),另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是在去往食槽的路上会有两个单位猪食的体能消耗,若大猪先到槽边,大小猪吃到食物的收益比是6:4;同时行动(去按按钮),收益比是7∶3;小猪先到槽边,收益比是9:1。
那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。
"智猪博弈"由纳什于1950年提出。
实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动。
在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。
当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。
综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。
2、协同攻击难题
两个将军各带领自己的部队埋伏在相距一定距离的两个山上,等候敌人。将军A得到可靠情报说,敌人刚刚到达,立足未稳。如果敌人没有防备,两股部队一起进攻的话,就能够获得胜利;而如果只有一方进攻的话,进攻方将失败。这是两位将军都知道的。
A遇到了一个难题:如何与将军B协同进攻?那时没有电话之类的通讯工具,只有通过派情报员来传递消息。将军A派遣一个情报员去了将军B那里,告诉将军B:敌人没有防备,两军于黎明一起进攻。
然而可能发生的情况是,情报员失踪或者被敌人抓获。即:将军A虽然派遣情报员向将军B传达“黎明一起进攻”的信息,但他不能确定将军B是否收到他的信息。
事实上,情报员回来了。将军A又陷入了迷茫:将军B怎么知道情报员肯定回来了?将军B如果不能肯定情报员回来的话,他必定不会贸然进攻的。于是将军A又将该情报员派遣到B地。然而,他不能保证这次情报员肯定到了将军B那里……
这就是“协同攻击难题”,它是由格莱斯(J. Gray)于1978年提出。更为糟糕的是,有学者证明,不论这个情报员来回成功地跑多少次,都不能使两个将军一起进攻。
扩展资料
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,莱因哈德·泽尔腾、约翰·海萨尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
参考资料来源:百度百科-博弈论
一、案例:《海盗抓黄豆》
有5个海盗,即将被处死刑。法官愿意给他们一个机会。从100个黄豆中随意抓取,最多可以全抓,最少可以不抓,可以抓同样多的豆子。最终,抓的最多的和最少的要被处死。如果你第一个抓,你抓几个?
条件:
1、他们都是非常聪明的人。
2、他们的原则是先求保命,再去多杀人;不能保命的话,也要多杀人。
3、100颗不必都分完。
4、若有重复的情况,则也算最大或最小,一并处死 (中间数的重复不算)。
二、解析: 根据题意,2号是知道1号抓了几颗豆子的。那么,对于2号来说,只有2种选择:与1号一样多,或者不一样多。从这里入手。
1、假如2号选择与1号的豆子数不一样多,也就是说2号选择比1号多或者比1号少。选择一样多的情况后面再讨论。
1.1我们先要证明,如果2号选择比1号多或者比1号少,那么他一定会选择比1号只多1颗或者只少1颗。为什么2号不会选择多2颗或更多,也不会选择少2颗或更少呢?要证明这个并不算太难。因为每个囚犯的第一选择是先求保命,要保命就要尽量使自己的豆子数既不是最多也不是最少。
当2号决定选择比1号多的时候,那么,他已经可以保证自己不是最少,为了尽量使自己不是最多,当然比1号多出来的数量越小越好,因为这个数量越大,那自己成为最多的可能性也就越大。反之,当2号决定选择比1号少的时候,也是同样的道理,他会选择只比1号少1颗。这个证明并不难,相信大家都能理解。这个证明也很重要,以后的许多推论,都是基于这个证明。
1.2既然2号只会会选择比1号多1颗或者比1号少1颗,那么1、2号的豆子数一定是2个连续的自然数,和一定是2n+1,其中1个人是n,另1人是n+1。轮到3号的时候,他可以从剩下的豆子数知道1、2号的数量和,也就不难计算出n的值。而3号也只有2个选择:n颗或者n+1颗。为什么3号不会选择n-1或者n+2呢?这完全是基于同1.1.的证明中一样的道理,这里不再赘述。
不过,3号选择的时候会有一个特殊情况,在这一情况下,他一定会选择较小的n,而不是较大的n+1。这一特殊情况就是,当3号知道自己选择了n后(已保证自己不是最多),剩下的豆子数由于数量有限,4、5号中一定有人比n要少,这样自己一定可以活下来。不难算出,这个特殊情况的n=20或者n>20。
也就是说,当1、2号选择了20和21颗的时候,3号只要选择20颗,就可以保证自己活下来,因为剩下的豆子只有39颗,4、5号至少有一人少于20颗(这个人当然是后选的5号),这样死的将是5号和1、2号中选21颗的那个人。
也由此我们可以看出,1号、2号都不会选择21这一“倒霉”的数字(因为他们都是聪明人),1号的选择肯定在20颗以下,而当1号选了20颗时,2号就不会再选择比1号多1颗,而只会选比1号少1颗的19。也就是说,上述“特殊情况”只是理论上的存在,实际不会发生。
1.3如上面所述,前2个人的和是2n+1,第3个人也只能选择n或者n+1,那么前3个人的数量和只能是3n+1或3n+2这两种可能。第4个人也是不难从剩下的豆子数知道1、2、3号的数量总和的,也就不难进而计算出n的值。同样,他也有n或者n+1这两种选择。
1.4与1.3.相同的计算方法,前4个人的总和,也只有4n+1,4n+2,4n+3这三种可能。最后的5号也是不难算出n的。在前4个人只选择了2个数字(n和n+1)的情况下,5号已是必死无疑,这时,根据“死也要拉几个垫背”的条件,5号会选择n或n+1,选择5个人一起完蛋。
2、根据第一点中的推论,如果2号选择了与1号不一样多的话,最终结果是5个人一起死,那么2号只有选择与1号一样多了。那么1、2号的和就是2n,而3号如果选择n+1或者n-1的话,就又回到第一点的情况去了(前3个人的和是3m+1或3m+2),于是3号也只能选择n。同样,4号还是只能选n,最后的结果仍旧是5个人一起完蛋。
三、答案
不存在“谁活下来的可能性比较大”的问题。实际情况是:5个人都要死。
扩展资料
博弈论主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。
博弈论已经成为经济学的标准分析工具之一。在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
参考资料来源:百度百科-博弈论
一、囚徒困境
故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个帕累托改进办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。
二、旅行者困境
两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来,他们都买了花瓶。提取行李的时候,发现花瓶被摔坏了,于是他们向航空公司索赔。航空公司知道花瓶的价格大概在八九十元的价位浮动,但是不知道两位旅客买的时候的确切价格是多少。于是,航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样,航空公司将认为他们讲真话,就按照他们写的数额赔偿;如果两人写的不一样,航空公司就认定写得低的旅客讲的是真话,并且原则上按这个低的价格赔偿,同时,航空公司对讲真话的旅客奖励2元,对讲假话的旅客罚款2元。
为了获取最大赔偿而言,本来甲乙双方最好的策略,就是都写100元,这样两人都能够获赔100元。可是不,甲很聪明,他想:如果我少写1元变成99元,而乙会写100元,这样我将得到101元。何乐而不为?所以他准备写99元。可是乙更聪明,他算计到甲要算计他写99元,于是他准备写98元。想不到甲还要更聪明一个层次,估计到乙要写98元来坑他,于是他准备写97元……大家知道,下象棋的时候,不是说要多“看”几步吗,“看”得越远,胜算越大。 你多看两步,我比你更强多看三步,你多看四步,我比你更老谋深算多看五步。在花瓶索赔的例子中,如果两个人都“彻底理性”,都能看透十几步甚至几十步上百步,那么上面那样“精明比赛”的结果,最后落到每个人都只写一两元的地步。事实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两人都写0。
三、是竞争也是劫持
费城西区有两个互为敌手的商店——纽约廉价品商店和美国廉价品商店.他们正好紧挨着, 两店的老板是死敌, 他们一直进行着没完没了的价格战.出售爱尔兰亚麻床单, 甚至连有鹰一般眼睛的贝蒂·瑞珀女士都不能找出任何疵点, 不信请问她;而这床单的价格又低得可笑, 只需6美元50美分".当一个店的橱窗里出现这样的手写告示时每位顾客都会习惯地等另一家廉价品商店的回音.果然, 大约过了两小时, 另一家商店的橱窗里出现了这样的告示: "瑞珀女士该配副近视眼镜了, 我的床单质量一流, 只需5美元95美分".价格大战的一天就这样开始了.除了贴告示以外, 两店的老板还经常站在店外尖声对骂, 经常发展到拳脚相加, 最后总有一方的老板在这场价格战中停止争斗, 价格不再下降.骂那个人是疯子, 这就意味着那方胜利了.这时, 围观的、路过的、还有附近每一个人都会拥入获胜的廉价品商店, 将床单和其他物品抢购一空.在这个地区, 这两个店的争吵是最激烈的, 也是持续时间最长的, 因此竟很有名声, 住在附近的每个人都从他们的争斗中获益不少, 买到了各式各样的"精美"商品.突然有一天, 一个店的老板死了, 几天以后, 另一个店的老板声称去外地办货, 这两家商店都停业了.过了几个星期, 两个商店分别来了新老板.他们各自对两个商店前任老板的财产进行了详细的调查.一天检查时, 他们发现两店之间有条秘密通道, 并且在两商店的楼上两老板住过的套房里发现了一扇连接两套房子的门.新老板很奇怪, 后来一了解才知道, 这两个死对头竟是兄弟俩.原来, 所有的诅咒、谩骂、威胁以及一切相互间的人身攻击全是在演戏, 每场价格战都是装出来的, 不管谁战胜谁, 最后还是把另一位的一切库存商品与自己的一起卖给顾客.真是绝妙的骗局。
四、酒吧博弈问题(bar problem)
酒吧博弈问题是美国人W. B.Arthur1994年在《美国经济评论》发表的题为《归纳论证和有界理性》一问中提出的,然后他又从1999年的《科学》杂志上发表的《复杂性和经济学》一文中阐述了这个博弈。''该博弈是说:有一群人,例如n=100,每个周末,均要决定是去一酒吧活动还是呆在家里。酒吧的容量是有限的,假定是60人。如果某人预测去酒吧的人超过60人,那么他决定去还是不去?......每个参与者或决策者面临的信息只是以前去酒吧的人数,只能根据以前的人数的信息来归纳出策略来。这是一个典型的动态博弈问题。......通过计算机的模型实验,阿瑟得出了一个有意思的结果:不同的行动者是根据自己的归纳来行动的,并且,去酒吧的人数没有一个固定的规律,然而,经过一段时间以后,去的平均人数总是趋于60。阿瑟说,预测者自组织到一个均衡系统中去和不去的人群,或形成一个生态稳定系统。......这就是酒吧问题。
酒吧问题所反映的是这样一个社会现象,正象阿瑟教授说的那样,我们在许多行动中,要猜测别人的行动,然而我们没有更多关于他人的信息,我们只有通过分析过去的历史来预测未来。
五、枪手博弈
今天,我讲一个有关博弈论的经典故事。
彼此痛恨的甲、乙、丙三个枪手准备决斗。甲枪法最好,十发八中;乙枪法次之,十发六中;丙枪法最差,十发四中。
先提第一个问题:如果三人同时开枪,并且每人只发一枪;第一轮枪战后,谁活下来的机会大一些?
一般人认为甲的枪法好,活下来的可能性大一些。但合乎推理的结论是,枪法最糟糕的丙活下来的几率最大。
我们来分析一下各个枪手的策略。
枪手甲一定要对枪手乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大,甲应该首先干掉乙,这是甲的最佳策略。
同样的道理,枪手乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉,乙和丙进行对决,乙胜算的概率自然大很多。
枪手丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些,丙先把甲干掉再与乙进行对决,丙的存活概率还是要高一些。
我们计算一下三个枪手在上述情况下的存活几率:
甲:24%(被乙丙合射40% X 60% = 24%)
乙:20%(被甲射100% - 80% = 20%)
丙:100%(无人射丙)
通过概率分析,我们发现枪法最差的丙存活的几率最大,枪法好于丙的甲和乙的存活几率远低于丙的存活几率。
但是,上面的例子隐含一个假定,那就是甲乙丙三人都清楚地了解对手打枪的命中率。但现实生活中,因为信息不对称,比如枪手甲伪装自己,让枪手乙和丙认为甲的枪法最差,在这种情况下,最终的幸存者一定是甲。所以,无论是历史,还是现实,那些城府很深的奸雄往往能成为最后的胜利者。这样的例子,对你的职场生涯或者官场生涯是否很有启发呢?
我们继续假定,甲乙丙三人互相不了解对手的枪法水平。在这种情况下,甲被乙射、甲被丙射、甲被乙丙射及甲不被乙丙射的机率各为25%,按贝氏(Bayes)定理计算甲的存活率:
甲活率:31%([被乙射:25% X 40% = 10%] + [被丙射:25% X 60% = 15%] + [被乙丙射:25% X 40% X 60% = 6%])。
乙活率:23%([被甲射:25% X 20% = 5%] + [被丙射:25% X 60% = 15%] + [被甲丙射:25%X20%X60% = 3%])。
丙活率:17%([被甲射:25% X 20% = 5%] + [被乙射:25% X 40% = 10%] + [被甲乙射:25% X 20% X 40% = 2%])。
在枪手互相不知道对手命中率的信息的情况下,这时命中率最高的枪手甲存活的几率最大,枪法最差的丙存活的可能性最小。
我们现在回到甲乙丙都知道对手命中率的情形,进行第二轮枪战的分析。
在第一轮枪战后,丙有可能面对甲,也可能面对乙,甚至同时面对甲与乙,除非第一轮中甲乙皆死。尽管第一轮结束后,丙极有可能获胜(即甲乙双亡),但是第二轮开始,丙就一定处于劣势,因为不论甲或乙,他们的命中率都比丙的命中率为高。
这就是枪手丙的悲哀。能力不行的丙玩些花样虽然能在第一轮枪战中暂时获胜。但是,如果甲乙在第一轮枪战中没有双亡的话,在第二轮枪战结束后,丙的存活的几率就一定比甲或乙为低。
第二轮枪战中甲乙丙存活的几率粗算如下:
(1) 假设甲丙对决:甲的存活率为60%,丙的存活率为20%。
(2) 假设乙丙对决:乙的存活率为60%,丙的存活率为40%。
这似乎说明,能力差的人在竞争中耍弄手腕能赢一时,但最终往往不能成事。我们现在用严格的概率方法计算一下两轮枪战后,甲乙丙各自的存活的几率。
(1) 第一轮:
甲射乙,乙射甲,丙射甲。
甲的活率为24%(40% X 60%),乙的活率为20%(100% - 80%),丙的活率为100%(无人射丙)。
(2) 第二轮:
情况1:甲活乙死(24% X 80% = 19.2%)
甲射丙,丙射甲──甲的活率为60%,丙的活率为20%。
情况2:乙活甲死(20% X 76% = 15.2%)
乙射丙,丙射乙──乙的活率为60%,丙的活率为40%。
情况3:甲乙皆活(24% X 20% = 4.8%)
重复第一轮。
情况4:甲乙皆死(76% X 80% = 60.8%)
枪战结束。
甲的活率为12.672%
(19.2% X 60%) + (4.8% X 24%) = 12.672%
乙的活率为10.08%
(15.2% X 60%) + (4.8% X 20%) = 10.08%
丙的活率为75.52%
(19.2% X 20%) + (15.2% X 40%) + (4.8% X 100%) + (60.8% X 100%) = 75.52%
通过对两轮枪战的详细概率计算,我们仍然发现枪法最差的丙存活的几率最大,枪法较好的甲和乙的存活几率仍远低于丙的存活几率。
对于这样的例子,有人会发出“英雄创造历史,庸人繁衍子孙”的感叹。
我们现在改变游戏规则,假定甲乙丙不是同时开枪,而是他们轮流开一枪。在这个例子中,我们发现丙的机会好于他的实力,丙不会被第一枪干掉,并且他可能极有机会在下一轮中先开枪。
先假定开枪的顺序是甲、乙、丙,甲一枪将乙干掉后(80%的几率),就轮到丙开枪,丙有40%的几率一枪将甲干掉。即使乙躲过甲的第一枪,轮到乙开枪,乙还是会瞄准枪法最好的甲开枪,即使乙这一枪干掉了甲,下一轮仍然是轮到丙开枪。无论是甲或者乙先开枪,乙都有在下一轮先开枪的优势。
如果是丙先开枪,情况又如何呢?
丙可以向甲先开枪,即使丙打不中甲,甲的最佳策略仍然是向乙开枪。但是,如果丙打中了甲,下一轮可就是乙开枪打丙了。因此,丙的最佳策略是胡乱开一枪,只要丙不打中甲或者乙,在下一轮射击中他就处于有利的形势。
我们通过这个例子,可以理解人们在博弈中能否获胜,不单纯取决于他们的实力,更重要的是取决于博弈方实力对比所形成的关系。
在上面的例子中,乙和丙实际上是一种联盟关系,先把甲干掉,他们的生存几率都上升了。我们现在来判断一下,乙和丙之中,谁更有可能背叛,谁更可能忠诚?
任何一个联盟的成员都会时刻权衡利弊,一旦背叛的好处大于忠诚的好处,联盟就会破裂。在乙和丙的联盟中,乙是最忠诚的。这不是因为乙本身具有更加忠诚的品质,而是利益关系使然。只要甲不死,乙的枪口就一定会瞄准甲。但丙就不是这样了,丙不瞄准甲而胡乱开一枪显然违背了联盟关系,丙这样做的结果,将使乙处于更危险的境地。
合作才能对抗强敌。只有乙丙合作,才能把甲先干掉。如果,乙丙不和,乙或丙单独对甲都不占优,必然被甲先后解决。
六、智猪博弈
猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲历亲为了。
改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
而从整个社会来讲,自身需求大的群体往往才是社会生产力推动的主力。换句话说,要迅速提高整个社会的生产力水平,就需要有一个自身具有很大消费需求的群体,并且需要给他们一定程度的奖励。第三种改变方案反映的就是这种情况,方案中降低了取食的成本,在现实中,也可以等同于增加了对取食者的奖励。
博弈论,又称为对策论(Game Theory)、赛局理论等,既是现代数学的一个新分支,也是运筹学的一个重要学科。
博弈论主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。博弈论已经成为经济学的标准分析工具之一。在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
案例一:囚徒困境
在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。
警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵
对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。
单从数学角度讲,这个理论是合理的,也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查,这是因为社会体系给人行为的束缚作用迫使人的决策发生改变。比如,从心理学角度讲,选择坦白的成本会更大,一方坦白害得另一方加罪,那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。
而8年到10年间的增加比例会被淡化,人的尊严会使人产生复仇情绪,略打破“行规”。我们正处于大数据时代,想更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析,人的活动动影像动因复杂,所以囚徒困境只能作为简化模型参考,具体决策还得具体分析。
案例二:智猪博弈
一、经济学中的“智猪博弈”(Pigs’payoffs) 这个例子讲的是:
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是6∶4;同时到槽边,大小猪收益比是7∶3;小猪先到槽边,大小猪收益比是9∶1。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。
"智猪博弈"由纳什于1950年提出。实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。
用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择:
从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。
在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识。在智猪博弈中,虽然小猪的“捡现成”的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗?
案例三:美女的硬币
一位陌生美女主动过来和你搭讪,并要求和你一起玩个游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”听起来不错的提议。如果我是男性,无论如何我是要玩的,不过经济学考虑就是另外一回事了,这个游戏真的够公平吗?
假设我们出正面的概率是x,反面的概率是1-x。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,不然对手总是可以改变正反面出现的概率让我们的总收入减少,由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)。这个方程通俗的说就是在对手一直出正面你得到的利益,和你对手一直出反面得到利益是一样的且最大。解方程得x=3/8,也就是说平均每八次出示3次正面,5次反面是我们的最优策略。而将x=3/8代入到收益表达式3*x+(-2)*(1-x)中就可得到每次的期望收入,计算结果是-1/8元。
同样,设美女出正面的概率是y,反面的概率是1-y,列方程-3y+2(1-y)=2y+(-1)*(1-y)。解得y也等于3/8,而美女每次的期望收益则是2(1-y)-3y=1/8元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。如果全部出正面,每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元
如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合,所以期望还是-1/8元。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你肯定就会被美女采用的策略针对,从而赔掉更多。看起来这个博弈模型似乎没有什么用处,但是其实这可能牵涉了金融市场定价中最重要的一个模型:定价权重模型了。
总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来,并使用数学和逻辑学的方法来分析事物的运作规律。既然有游戏的参与者那么也必然存在游戏规则的制定者。深入的了解竞争行为的本质,有助于我们分析和掌握竞争中事物之间的关系,更方便我们对规则进行制定和调整,使其最终按照我们所预期的目的进行运作。
资料来源:博弈论百度百科
案例四:普通范式博弈
GOO公司和SAM公司是某手机产品生态的两大重量级参与者,双方在产业链的不同位置上各司其职且关系暧昧,有时也往往因商业利益和产品影响力的争夺而各怀异心。二者的收益也随着博弈的变化而不断更替。
上图表格模拟了两家公司的博弈现状,双方各有两个可选策略“合作”与“背叛”,格中的四组数据表示四个博弈结局的分数(收益),每组数据的第一个数字表示GOO公司的收益,后一个数字表示SAM公司的收益。博弈是同时进行的,一方参与者必须站在对方的角度上来思考我方的策略选择,以追求收益最大化。这在博弈论里称作Putting yourselves into other people's shoes。
现在我们以GOO公司为第一人称视角来思考应对SAM公司的博弈策略。假如SAM公司选择合作,那么我方也选择合作带来的收益是3,而我方选择背叛带来的收益是5,基于理性的收益最大化考虑,我方应该选择背叛,这叫严格优势策略;假如SAM公司选择背叛,那么我方选择合作带来的收益是-3,而选择背叛带来的收益为-1,为使损失降到最低,我方应该选择背叛。最后,GOO公司的分析结果是,无论SAM公司选择合作还是背叛策略,我方都必须选择背叛策略才能获得最大化的收益。同理,当SAM公司也以严格优势策略来应对GOO公司的策略选择时,我们重复上述分析过程,就能得出结论:无论GOO公司选择合作还是背叛策略,SAM公司都必须选择背叛策略才能获得最大化收益。
最后我们发现,本次博弈的双方都采取了背叛策略,各自的收益都为-1,这是一个比较糟糕的结局,尽管对任何一方来说都不是最糟糕的那种。这种局面就是著名的“囚徒困境”。但是,博弈的次数往往不止一次,就像COO与SAM公司双方的商业往来也许会有很多机会。当二者经历了多次背叛策略的博弈之后,发现公式上还有一个(3,3)收益的双赢局面,这比(-1,-1)的收益结果显然要好很多,因此二者在之后的博弈过程中必然会尝试互建信任,从而驱使双方都选择合作策略。
这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。随着次数(博弈性质)的变化,纳什均衡点也并非唯一。
案例五:饿狮博弈
题设为A、B、C、D、E、F六只狮子(强弱从左到右依次排序)和一只绵羊。假设狮子A吃掉绵羊后就会打盹午睡,这时比A稍弱的狮子B就会趁机吃掉狮子A,接着B也会午睡,然后狮子C就会吃掉狮子B,以此类推。那么问题来了,狮子A敢不敢吃绵羊?
为简化说明,我们先给出此题的解法。该题须采用逆向分析法,也就是从最弱的狮子F开始分析,依次前推。假设狮子E睡着了,狮子F敢不敢吃掉狮子E?答案是肯定的,因为在狮子F的后面已没有其它狮子,所以狮子F可以放心地吃掉午睡中的狮子E。继续前推,既然狮子E睡着会被狮子F吃掉,那么狮子E必然不敢吃在他前面睡着的狮子D。再往前推,既然狮子E不敢吃掉狮子D,那么D则可以放心去吃午睡中的狮子C。依次前推,得出C不吃,B吃,A不吃。所以答案是狮子A不敢吃掉绵羊。细心的人也许会发现,假如增加或减少狮子的总数,博弈的结果会完全不同。
我们在狮子F的后面增加了一只狮子G,总数变成7只。用逆向分析法按照上题步骤再推一次,很容易得出结论:狮子G吃,狮子F不吃,E吃,D不吃,C吃,B不吃,A吃。这次的答案变成了狮子A敢吃掉绵羊。
对比两次博弈我们发现,狮子A敢不敢吃绵羊取决于狮子总数的奇偶性,总数为奇数时,A敢吃掉绵羊;总数为偶数时,A则不敢吃。因此,总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。
通过上述案例的多轮博弈,初学者应该能够隐约发现纳什均衡的轮廓。当博弈次数不止一次地进行着时,博弈结果将重复定格在某个状态,那个状态即是纳什均衡点。公理解释是如果博弈在某情况下无任一参与者可以通过独自行动而增加收益,则此时的策略组合被称为纳什均衡。
简单的博弈案例看上去似乎有趣,但博弈论始终是一门深奥复杂的学问,它的复杂之处就在于博弈分析所用的理想化模型与现实永远存在差异。比如博弈论要求各方参与者必须是经济学意义上的“理性人”,而事实上完全的“理性人”并不存在。现实世界存在着太多超出博弈论的变数,这为追求精确预测的博弈模型构建工作带来难度。
尽管如此,博弈论仍然改变了世界,成为人类理性认识世界的一个重要工具。而纳什均衡的提出无疑丰富了博弈论的理论体系,它是人类文明的一片砖瓦。可以肯定的是,百年之后,人们依然不会忘记约翰•纳什的名字,亦不会忘记那个神奇的纳什均衡。资料来源:两个经典例子,揭开博弈论以及纳什均衡的神秘面纱,本文系作者 水哥
5.博弈论的意义
弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样,都是从复杂的现象中抽象出基本的元素,对这些元素构成的数学模型进行分析,而后逐步引入对其形势产影响的其他因素,从而分析其结果。
基于不同抽象水平,形成三种博弈表述方式,标准型、扩展型和特征函数型利用这三种表述形式,可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲,博弈论是研究理性的行动者相互作用的形式理论,而实际上正深入到经济学、政治学、社会学等等,被各门社会科学所应用。
1.博弈论是指某个个人或是组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,在经济学上博奕论是个非常重要的理论概念。
什么是博弈论?古语有云,世事如棋。生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们 “出棋” 着数中理性化、逻辑化的部分,并将其系统化为一门科学。换句话说,就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上,博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化,通过建立自完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情,以最简单的二人对弈为例,稍想一下便知此中大有玄妙:若假设双方都精确地记得自己和对手的每一步棋且都是最“理性” 的棋手,甲出子的时候,为了赢棋,得仔细考虑乙的想法,而乙出子时也得考虑甲的想法,所以甲还得想到乙在想他的想法,乙当然也知道甲想到了他在想甲的想法…
面对如许重重迷雾,博弈论怎样着手分析解决问题,怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢?现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立,1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。对于非合作、纯竞争型博弈,诺伊曼所解决的只有二人零和博弈--好比两个人下棋、或是打乒乓球,一个人赢一着则另一个人必输一着,净获利为零。在这里抽象化后的博弈问题是,已知参与者集合(两方) ,策略集合(所有棋着) ,和盈利集合(赢子输子) ,能否且如何找到一个理论上的“解” 或“平衡” ,也就是对参与双方来说都最“合理” 、最优的具体策略?怎样才是“合理” ?应用传统决定论中的“最小最大” 准则,即博弈的每一方都假设对方的所有功略的根本目的是使自己最大程度地失利,并据此最优化自己的对策,诺伊曼从数学上证明,通过一定的线性运算,对於每一个二人零和博弈,都能够找到一个“最小最大解” 。通过一定的线性运算,竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤,就可以最终达到彼此盈利最大且相当。当然,其隐含的意义在於,这套最优策略并不依赖于对手在博弈中的操作。用通俗的话说,这个著名的最小最大定理所体现的基本“理性” 思想是“抱最好的希望,做最坏的打算” 。
2.在经济学中,“智猪博弈”(Pigs’payoffs)是一个著名博弈论例子。
这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。
“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。
改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。
比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”
增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。
3.背景知识:纳什博弈论的原理与应用
2002年03月21日17:44 北京晚报
1950年和1951年纳什的两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石,后来的博弈论研究基本上都沿着这条主线展开的。然而,纳什天才的发现却遭到冯·诺依曼的断然否定,在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性,使纳什坚持了自己的观点,终成一代大师。要不是30多年的严重精神病折磨,恐怕他早已
站在诺贝尔奖的领奖台上了,而且也绝不会与其他人分享这一殊荣。
纳什是一个非常天才的数学家,他的主要贡献是1950至1951年在普林斯顿读博士学位时做出的。然而,他的天才发现———非合作博弈的均衡,即“纳什均衡”并不是一帆风顺的。
1948年纳什到普林斯顿大学读数学系的博士。那一年他还不到20岁。当时普林斯顿可谓人杰地灵,大师如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系主任)、阿尔伯特·塔克、阿伦佐·切奇、哈罗德·库恩、诺尔曼·斯蒂恩罗德、埃尔夫·福克斯……等全都在这里。博弈论主要是由冯·诺依曼(1903—1957)创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论,而且发明了计算机。早在20世纪初,塞梅鲁(Zermelo)、鲍罗(Borel)和冯·诺伊曼已经开始研究博弈的准确的数学表达,直到1939年,冯·诺依曼遇到经济学家奥斯卡·摩根斯特恩(Oskar Morgenstern),并与其合作才使博弈论进入经济学的广阔领域。
1944年他与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版,标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如,1838年古诺(Cournot)简单双寡头垄断博弈;1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断;2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽,其特点是零星的,片断的研究,带有很大的偶然性,很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法,奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而,诺依曼的博弈论的局限性也日益暴露出来,由于它过于抽象,使应用范围受到很大限制,在很长时间里,人们对博弈论的研究知之甚少,只是少数数学家的专利,所以,影响力很有限。正是在这个时候,非合作博弈———“纳什均衡”应运而生了,它标志着博弈论的新时代的开始!纳什不是一个按部就班的学生,他经常旷课。据他的同学们回忆,他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课,但纳什争辩说,至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者,可是,没上几次课,纳什就认定这门课不符合他的口味。于是,又走人了。然而,纳什毕竟是一位英才天纵的非凡人物,他广泛涉猎数学王国的每一个分支,如拓扑学、代数几何学、逻辑学、博弈论等等,深深地为之着迷。纳什经常显示出他与众不同的自信和自负,充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试,他的博弈论研究工作被迫中断,他感到这是莫大的浪费。殊不知这种暂时的“放弃”,使原来模糊、杂乱和无绪的若干念头,在潜意识的持续思考下,逐步形成一条清晰的脉络,突然来了灵感!这一年的10月,他骤感才思潮涌,梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文,1950年11月刊登在美国全国科学院每月公报上,立即引起轰动。说起来这全靠师兄戴维·盖尔之功,就在遭到冯·诺依曼贬低几天之后,他遇到盖尔,告诉他自己已经将冯·诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域,找到了普遍化的方法和均衡点。盖尔听得很认真,他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况,而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表,以免被别人捷足先登。纳什这个初出茅庐的小子,根本不知道竞争的险恶,从未想过要这么做。结果还是盖尔充当了他的“经纪人”,代为起草致科学院的短信,系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多,就那么几篇,但已经足够了,因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授,要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。
1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章,特殊的人才,必须有特殊的选拔办法。
纳什在上大学时就开始从事纯数学的博弈论研究,1948年进入普林斯顿大学后更是如鱼得水。20岁出头已成为闻名世界的数学家。特别是在经济博弈论领域,他做出了划时代的贡献,是继冯·诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献,都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。
囚犯的两难处境:
关于“囚徒困境”
在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoners’ dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。
表2.2 囚徒困境博弈
B
坦白 抵赖
A 坦白 –8, –8 0, –10
抵赖 –10, 0 –1, –1
我们来看看这个博弈可预测的均衡是什么。对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。
------------------------------------------------------------荆祖民 整理提供
大理论中的小故事
要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军奋竞赛、污染等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
价格战博弈:
现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论(vivalry game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。
污染博弈:
假如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。
贸易自由与壁垒:
这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制,比如提高关税,则Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如X和Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。
老师刚让我们写一篇关于“美女与老虎”的博弈案例,其它经典的案例还有囚徒困境,性别博弈,小猪博弈等
案例一:管理博弈论在运动队管理中的应用[2] 现代运动队的管理是最大限度地发挥运动员的积极性,运动员的管理是运动队的核心问题。组建各级运动队的最终目的,是为了参加各种各样的比赛,取得优异的运动成绩。在当今经济快速发展的新形势下,对运动队的管理不能再像过去一样简单地归纳为服从与被服从的关系。只有充分考虑到各方面的因素,进行科学合理的管理,才能为运动队取得优异的成绩提供强有力的保障。运动队是一个由多人组成的集体,教练员和运动员无时无刻不在进行着博弈,如何权衡各方面的相关因素以达到最佳的管理效果,就需要管理层在进行管理的时候,充分运用管理博弈论的激励与约束机制,权衡利弊,这样才能很好地解决目前运动队管理中存在的一些问题。一、运用管理激励的方式实现运动队管理目标(1)需要激励马斯洛的递进五层次需要理论指出人的需要是从低级到高级,以层次的形式表现出来的,当某一层次的需要得到满足时其激发动机的作用也随之消失,这时候上一级较高层次的需要成为新的激励因素。在一个运动队中,对同一个运动员来说,不同时期的需要层次也是不尽相同的。例如,火箭队用560万美元优先取得了“小巨人”姚明下一年度的合约,对姚明来说他现在的需要就是场上主力位置,谋取高的报酬。在这种情况下,只有火箭队的管理层意识到这一点,并且满足他的需求,他才能继续为该队效力,反之,他就会另找主家。然而当初他在上海东方时的愿望仅仅是能够到NBA去打球。针对这些不同阶段的运动员的不同需要,在进行运动队管理的时候都应充分进行考虑,并且拿出相应的解决办法,对症下药,才能取得最佳的管理效果,最大限度地调动运动员的积极性。(2)目标激励美国心理学家佛罗姆认为,一种激励因素(或目标)的激励作用的大小受它的期望概率和效价两方面的因素的制约,可以用公式表示为:激发力量=效价X期望概率。期望公式的理论说明:①确立目标要适宜。在运动队的管理中必须针对运动队运动员本人的训练水平,确立与运动员或运动队本身相符合的目标,不管运动员的本身训练水平如何,盲目为运动队设立夺取奥运会金牌,世界冠军之类的崇高目标,显然也不可能激发出强大的行为力量。相反如果目标过小同样不可能产生较大动力。②处理好成绩与奖励的关系。现代社会是经济社会,当运动员取得一定的成绩,达到一定的目标时,就希望得到相应的奖励,这样才觉得自身的价值得到了体现。③运用期望值调动运动员的积极性。不同层次的运动员,不同训练水平的运动员对自己的期望势必不同,一些运动员期望值过高,盲目乐观,一旦实现不了目标就会有失败感,一些运动员对自己的期望值过低,放松不努力,不认真训练,这都需要管理层认真分析,并为运动员设立适合的目标。(3)榜样激励优秀的运动队是由优秀的运动员、教练员组成的,特别是那些取得了辉煌成绩的老运动员,对运动队、对这个项目来说都是宝贵的财富,他们的言行对年轻运动员来讲,有时比教练员的说教能起到的作用更大,所以他们更应该严格要求自己,在运动队管理中,充分发挥自己的作用。二、运用管理约束的机制强制性地实现运动队管理目标(1)压力约束按照管理目标方向对被管理者施以约束(如设置竞争环境)的直接作用是对人形成一种外部压力,可使人产生某种顾虑和紧张,从而产生一种避惩和控制力量。适度的压力会转化为人们努力工作的动力,但压力过大又会令人产生不安的情绪。在运动队管理中要求管理者在对运动员实施压力约束时,结合他们的训I练水平,确定适合的目标,施加适当的压力,偏执地认为有压力才有动力等等不科学的想法是错误的。(2)纠偏约束纠偏约束可以用来约束运动员某些偏离运动队具体规则的行为,使运动员朝着~个目标前进。在备战世青赛期间,由于私自外出饮酒,来自江苏的胡雪峰、杨力及来自新疆的木拉提三员国青小将遭受重罚。为整肃纪律,男篮国青做出了将这三名队员调整出队的决定。国青队对这三名小将进行的处罚,就是管理约束机制中纠偏约束在篮球运动队管理中的运用,在运动队管理中,运用纠偏约束可以有效地规范运动员的违规行为。三、建立合适的激励约束机制进行运动队的管理管理激励与约束的形成是一个复杂的过程,首先必须以明确目标为导向,合理的设置目标体系,进一步进行分析,并形成决策。在运动队管理中,主要的激励与约束的构成,由于被管理者不同时期的需求不同,管理者拥有的激励与约束资源也不同,因此在不同的时期管理激励与约束的侧重点是不尽相同的,必须用纳什均衡对各个相关因素进行组合和分析,及时调整管理的方法。例如,对于国家篮球队来说,他的总体目标是参加各级比赛,但是在每一阶段他的目标都是不一样的,子目标A可能是亚运会,子目标B可能是四国邀请赛等等,那么我们在运用激励与约束机制的时候就应该针对不同的目标,不同的相关因素进行分析,调整管理方法。整体的设计模式如图。管理激励与约束机制设计框图.jpg。对运用管理博弈论对运动队管理的相关因素进行研究,并初步建立运动队管理的模型。在运动队管理中合理地运用管理激励机制和管理约束机制能达到预期的管理目标,能够节省有限的资源,为运动队取得优异的运动成绩提供保障。在实际的运动队管理中,由于每个运动队的情况不尽相同,相关因素不太一样,在操作过程中需要根据各个队的实际情况,对该模式进行补充和完善。
博弈论分析
一、经济学中的“智猪博弈”(Pigs’payoffs)
这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。
“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。
改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。
比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。
二、囚徒困境博弈
在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoners’
dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。
表 囚徒困境博弈 [Prisoner's dilemma]
B 坦白 B 抵赖
A 坦白 –8, –8 0, –10
A 抵赖 –10, 0 –1, –1
我们来看看这个博弈可预测的均衡是什么。对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。
要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。
话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。
检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判
10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。
这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。
不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”
这样的例子。如价格战博弈、军奋竞赛博弈、污染博弈等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略
(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被成双成对地融入不同的组合。分好组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择。关键问题在于,他们不只玩一遍这个游戏,而是一遍一遍地玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”。
“重复的囚徒困境”更逼真地反映了具有经常而长期性的人际关系。而且,这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立了各自的历史档案,用以记录与对手的交往情况。同时,它们各自也通过多次的交手树立了或好或差的声誉。虽然如此,对方的程序下一步将会如何举动却仍然极难确定。实际上,这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗?它是否应该对对手的举动回之以更为复杂的举措?如果是,那会是怎么样的举措呢?
事实上,竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报。我把它叫做“以其人之道,还治其人之身”。
“一报还一报”的策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治其人之身的策略。也就是说,一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单明了的”。
三、价格战博弈
现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论
(vivalry
game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。
四、贸易战博弈论
这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制,比如提高关税,则Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如X和Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。
博弈论案例分析
案例一:博弈论在企业人力资本投资中的应用[1]
一、引言
一个企业能否在市场中取得经济优势,依赖于企业科技优势、产品的市场适应性等等,而这一切又源于人才优势。因此,一个企业面临着如何尽可能地保持自己人力资源的优势,如何吸引优秀人才加入企业添加新动力,如何有效培训使己有员工获得技能的提高,如何使员工适应外部环境变化的要求,如何有效挽留公司的核心人才等等。但是统计调查显示,我国的培训现状不尽如人意。总体来看,我国企业培训管理的制度化、规范化程度有待加强,培训计划执行不力,培训效果跟踪与评价环节薄弱,培训对改善员工绩效的效用没有发挥,培训结果与员工晋升没有太大影响等。造成这种现状的原因固然是多方面的,其中一个主要原因就是人力资本投资收益的滞后性和不确定性,担心员工“硬了翅膀就飞走”,得不偿失。企业是否增加人力资本投资,员工是否留任企业,都是利益的博弈,结果是选择有利于自己的战略。本文用博弈论对企业人力资本投资作分析,说明企业应当进行人力资本投资和投资后应采取措施保证人力资本投资收益的获取。
二、概念和假定
1.概念界定
①人力资本。人力资本是通过投资于已有人力资源而形成的、以复杂劳动力为载体的、能实现价值增值的可变资本。
②企业人力资本投资。企业人力资本投资是指企业通过一定的投入(货币、资本或实物)获得人力资源,增加企业员工的知识、技能、健康水平,提高企业管理、文化水平和企业形象,从而提升企业人力资本存量,使企业经济效益提高的一种投资行为。
2.基本假设
①经济人。经济人假设是指无论是组织还是个人,追求自身利益的最大化。
②完全信息。完全信息是指信息是完全通畅的,不存在滞塞,而且客观存在的信息的获取是不需要成本的。
③物质资本充足。商品的生产总是物质资本和人力资本结合在一起进行的。
要使生产高效率的进行,物质资本和人力资本必须保持适当的比例。
三、人力资本投资与员工个人的博弈分析
本文从企业与员工之间的角度作人力资本投资的完全信息静态博弈分析,重点分析企业是否增加人力资本投资以及投资后如何行动。
假定在完全信息的条件下,企业和员工都是理性的。企业可以选择对员工培训或不培训。根据企业的选择,员工会做出留下或是转投其他企业的选择。假设企业不对员工进行培训是员工的收入为d,当企业选择培训,假设分摊到员工个人的培训费用为c,经过培训后多支付员工的薪水为e(e可以为零,即经过培训后不增加员工薪水),经过培训后员工为企业带来的收益增加值为b。又假设员工离职去另一单位获得的报酬为a。这里为了分析更简单一些,假设员工经过培训与未经过培训跳槽的收入一样,都为a。有时候培训后由于员工技能提高跳槽会获得更多的收入,但是并不影响下面的分析。企业培训博弈分析如表1所示: 当b-c-e<0时,即企业对员工培训后得到的收益增加值小于支出时,不管员工做出如何决策,企业都不会得到任何的收益增加值,因此企业是不会对员工进行培训投入的。
当b-c-e>0时,该博弈成立并可能会出现两种均衡:如果此时员工选择留下所获得的收益d+e大于其选择跳槽时所获的收益a时,理性的员工必定会留在原来的企业,企业也必然会选择培训投入,这也是这个博弈中双方的最优决策;如果此时员工选择留下所获得的收益d+e小于其选择跳槽时所获的收益a时,理性的员工必定选择跳槽,此时企业损失为c,损失最惨重。对企业而言,如果知道这样做令员工跳槽的话,那么企业还不如刚开始就不培训,那样蒙受的损失会少些。这里需要指出的是,一个员工是否跳槽并不简单的取决于对方企业开出的薪酬。影响因素有很多,比如员工个性是否与企业匹配、员工个人发展前景、员工兴趣与岗位的匹配等等。上述表格中,企业如果不对员工进行培训,那么员工留下或离职取决于现有收入d和跳槽企业的薪酬a。
如果d>a,员工留下:反之员工跳槽
总之,员工是否留任企业,是一种利益的博弈,并且企业与员工之间存在着信息的不对称,企业必须采取先发行动传递信号减弱员工离任的动机,只要企业能留住员工,人力资本投资就会给企业带来巨大的经济效益。
[编辑]案例二:博弈论在企业经营活动的应用策略[2]
哈佛商学院波特教授的竞争五种力量,给出了我们思考行业市场竞争状况和态势时一种全面而详细的分析方法,其中一种力量是潜在进入者的威胁。
那么,根据市场类型(完全竞争市场、垄断竞争市场、完全垄断市场和寡头垄断市场),由于多数行业市场属于垄断竞争市场,就存在现有企业和新进入者之间的进入和退出博弈,这取决于彼此结构性的进入障碍、对关键资源的控制度、规模经济效应及现有企业的市场优势的因素。
如果你是现有行业的垄断者和一定程度的影响者,阻止潜在进入者进入市场或遏止现有企业恶性竞争的博弈策略有:
1.扩大生产能力策略
垄断者为阻止潜在进入者进入市场,垄断者可能对潜在进入者进行威胁。但垄断者的这种威胁是否能达到阻止进入的目的,取决于其承诺。所谓承诺(Promise),是指对局者所采取的某种行动,这种行动使其威胁成为一种令人可信的威胁。那么,一种威胁在什么条件下会变得令人可信呢?一般是,只有当对局者在不实行这种威胁会遭受更大损失的时候,与承诺行动相比,空头威胁无法有效阻止市场进入的主要原因是,它是不需要任何成本的。发表声明是容易的,仅仅宣称将要做什么或者标榜自己是说一不二的人也都缺乏实质性的意义。因此,只有当对局者采取了某种行动,而且这种行动需要较高的成本或代价,才会使威胁变得可信。
2.保证最低价格条款的策略
所谓“保证最低价格”条款策略,即可采取限制性定价策略,通过收取低于进入发生时的价格来防范进入。如某商店规定,顾客在本商店购买这种商品一定时期内(如一个月),如果其他任何商店以更低的价格出售同样的商品,本店将退还差价,并补偿差额的一定百分比(如10%
)。例如,如果你在该商店花5
000元购买了一架尼康相机,一周后你在另一家商店发现那里只卖4500元,那么你就可以向该商店交涉,并获得550元的退款。
又如假定一个将存在两期的市场。在第1期只有一个厂商,面临两种选择:
①制定一个垄断高价60元,可获1
000元的利润,但会使潜在企业认为该行业有利可图,从而选择在第2期进入;而一旦该市场有两个企业存在,将会使市场价格下降到30元,企业利润降为200元。这样,两期的总利润是1000+200=1200元。
②制定低价40元,潜在企业如果进来,价格降到20元,两个企业的利润都将是0。
故此时潜在企业将不会进入。这样,第二期的价格可以确定一个垄断高价60元,因此总利润将为600+1000=1600元。
对消费者来说,保证最低价格条款使你至少在一个月内不会因为商品降价而后悔你的购买,但这种条款对消费者是承诺,对竞争者是警告,无疑是企业之间竞争的一种手段。
保证最低价格条款是一种承诺,由于法律的限制,商店在向消费者公布了这一条款之后是不能不实行的,因此它是绝对可信的。这一承诺隐含着企业A向企业B发出的不要降价竞争的威胁,并使这种威胁产生其预期的效果。
3.限制进入定价策略
限制进入定价是指现有企业通过收取低于进入发生的价格的策略来防范进入,潜在进入者看到这一低价后,推测出进入后价格也会那么低甚至更低,因而进入该市场终将无利可图而放弃进入。
4.掠夺性定价策略
掠夺性定价是指将价格设定为低于成本来达到驱逐其他企业的目的,而期望由此发生的损失在新进入企业或者竞争对手被逐出市场后,掠夺企业能够行使市场权力时可能得到补偿,即在驱逐其他企业后,再制定垄断高价以弥补前期的损失。这也是一种价格报复策略。掠夺性定价与限制定价之间的差异在于限制定价是针对那些尚未进入市场的企业,是想较长一段时间内维持低价来限制新企业的进入,而掠夺性定价则将矛头指向已经进入的企业或即将来临之际。如你产能过剩,在新企业进入时可以进行产能扩张,将商品大幅降价防堵其进入。
5.广告战博弈
有些商品只有在使用后才知道其质量真正如何,我们把这种商品称为经验品。只有生产那些高质量经验品的企业才会选择做巨额广告,而低质量的企业将不会做广告。原因是高质量经验品会有大量的回头客,而低质量经验品则鲜有人再次光顾。
另外现有厂商之间产量、价格竞争的博弈,尚有古诺模型、伯川德模型可以描述。博弈理论在宏微观层面对企业参与竞争、制定竞争策略均有指导意义。著名营销专家希顿曾说,企业家的艺术就是对企业的策略性经营和管理,博弈作为策略,企业在当今激烈的市场竞争中需要博弈!
博弈论及其在现代经济生活中的应用
有一个典型的案例:甲乙两人合伙作案,结果被警察抓了起来,分别被隔离审讯。在不能互通信息的情形下———也就是不知道对方是坦白还是缄默的前提下,每个嫌疑犯都可以作出自己的选择:或者供出同伙,即与警察合作,从而背叛同伙;或者保持沉默,也就是与同伙合作,而不是与警察合作。这样会出现以下几种情况:如果两人都不坦白,警察会因证据不足而将两人各判刑! 年;如果一人招供而另外一人不招,坦白者作为证人将不会被起诉,另一人将会被重判!" 年;如果两人都招供,则会因罪名成立各判!# 年。这两个嫌疑犯该怎么办呢?是选择合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样对他们整体而言是最好的结果———都只判!年。但是他们不得不仔细考虑对方可能采取的选择。问题就这样开始了,两个人都十分精明,而且只关心减少自己的刑期,并不会在乎对方被判多少年。每个人都会这样推理:假如对方不招,我只要一招供,马上可以获得自由,而不招却要坐牢! 年,显然招比不招好;假如对方招了,我若不招,则要坐牢!" 年。招了只要坐牢!# 年,显然还是招更好些。可见,对方无论招或者不招,我的最佳选择都是招认。两个人都会基于同样的想法作出招供的选择,这对他们个人来说都是最佳策略,但对整体而言却是一个最差的结果。
这就是博弈论的一个经典模型———“囚徒困境模型”。作为一种关于决策和策略的理论,博弈论其实就在我们身边,它研究的许多例子来自于日常生活和经济活动中的游戏和事物。
博弈的英文即,中文译为“博弈”是非常传神和贴切的,因为中国古代称下棋为“弈”,“博”则含有争斗的意思。在下棋这样的游戏中有一个重要的特点:即策略在其中起着举足轻重的影响和作用。精明慎重的棋手们相互揣摩、相互牵制,人人争赢,布每一个棋子时,都必须考虑到对手的策略选择,从而选择自己的最佳策略。这也就是博弈的核心问题:决策主体的一方行动后,参与博弈的其他人将会采取什么行动?参与人为取得最佳效果应采取怎样的对策?我们可以将博弈论定义为:一些个人、一些团队或其他组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,同时或先后,一次或多次,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。博弈论是(# 世纪四五十年代发展起来的。美国经济学家冯•诺依曼与奥斯卡•摩根斯特恩于!)**年合著的《博弈论与经济行为》被公认为博弈论诞生的标志。
博弈论可以分为合作博弈理论和非合作博弈理论。前者主要强调的是集体理性;而后者主要研究人们在利益相互影响的局势中如何选择策略使自己的收益最大,强调的是个人理性。所谓“个人理性”是反映个体的行为始终都是以实现自身的最大利益为惟一目标,除非是为了实现自身利益的需要,否则不会考虑其他的个体或社会利益这样一种决策原则。非合作博弈要求各参与人之间不能存在任何有约束力的协议,也就是各个参与人不能公开“串通”或“共谋”。(# 世纪"# 年代,数学家纳什提出了著名的非合作博弈的纳什均衡理论,奠定了现代非合作博弈论的基石,后来的博弈论研究基本上是沿着这条主线展开的。纳什均衡理论地提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。现在人们所说的博弈论基本是指非合作博弈论。这是因为竞争是一切社会经济关系的根本基础。在现实生活中非合作的情况要比合作普遍,不合作是基本的,合作是有条件和暂时的。事实上在我们证明非合作博弈的无效率或低效率的同时,就自然说明了博弈论及其在现代经济生活中的应用!# 杨佳佳!"存在着合作的可能性和必要性。“囚徒困境模型”在现代经济生活中有着广泛而深刻的应用。比如,我们经常会遇到各种各样的价格大战,家用电器大战、服装大战、机票打折大战⋯⋯。
按照囚徒困境模型,各个厂家都将选择降价作为自己的优势策略。因为别的厂家如果不降价,我选择降价将会获得更多的市场份额;别的厂家如果降价,我只有跟着降价才能维持本来的市场份额。最后,博弈的结果是各个厂家谁都没有多少钱赚。再如,在遗失钱物时,遗失人和拾得人的心态其实也就像这两个囚徒,前者希望不给任何报酬能失而复得,后者怕得不到报答干脆占为己有,博弈的结果通常是遗失物被拾得人侵占。“囚徒困境博弈”准确地抓住了人性的真实一面———相互防范背叛与彼此的不信任,以及这种心理对合作的破坏作用。
但是,在现实生活中,我们巴不得囚徒之间以及各个厂家之间不能合作。因为我们不愿意看到危险的罪犯通过合作逃脱了法律的制裁或者是几个大企业联合起来形成对行业的垄断,导致我们不能享受合理的价格。在现实生活中,我们也期待遗失人和拾得人能更多地为对方的利益着想,从而提升整个社会的道德水准。当我们试图阻挠或者促进“囚徒”之间的合谋,希望通过法律或者道德维系良好的社会秩序时,我们必须了解什么样的途径可以破解“囚徒困境”,并且正视人们正当的逐利心态在博弈过程中的影响。比如:很多发达国家往往利用法律的形式对垄断行为进行严格的限制。反垄断法的实施阻挠了企业之间的价格合谋,并且激励企业改善管理,开发技术,努力以较低的成本生产质量较好的产品,提高企业的市场竞争力。同时,如果我们期待拾金不昧的博弈结果,那么就要鼓励归还失物这一善行。怎么鼓励呢?中国人的道德宗师孔子两千年前就回答了这个问题。孔子的弟子有一次救了一个溺水的人。被救者酬谢这位弟子一头牛,他收下了。孔子对这个弟子的行为大加赞赏。因为这会激励更多的人去救人,今后也会有更多溺水的人得到营救。道德准则要求人们不要惟利是图,但是从不反对社会成员通过自己的正当行为获取收益。如果德行善举得不到报答和补偿,那么它就只能是少数圣贤的“专利”而不会成为社会公德。“智猪博弈模型”是博弈论中另一个经典的模型。它说的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到投食口之前刚好吃完所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到投食口,争吃到另一半残羹。那么,两只猪各会采取什么策略?答案是小猪将选择“搭便车”策略,也就是舒舒服服地等在投食口旁;而大猪则为一点残羹不知疲倦地奔忙于踏板和投食口之间。原因何在?因为,小猪踩踏板将会一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是最好的选择。反观大猪,已经明知小猪是不会踩动踏板的,自己踩总比不踩强,所以,只好亲历亲为了。
这个经典模型揭示了市场竞争中大企业与小企业之间的关系。研究开发,为新产品做广告,对大企业是值得的,对小企业则得不偿失。小企业应把精力花在模仿上,或等待大企业用广告打开市场后出售廉价产品,而大企业应当以主动的态度来开拓市场。一个理性的企业,就应该象“智猪”一样,选择自己的优势策略。在欧佩克中,各个成员的生产能力各不相同。同属一个同盟的大成员和小成员,他们应该选择遵守协议还是选择作弊多生产石油呢?假设以沙特阿拉伯和科威特为例。假定在合作的情况下,科威特每天应当生产!"" 万桶石油,沙特阿拉伯则生产#"" 万桶。对于他们两家而言,作弊意味着每天多生产!"" 万桶。科威特有一个优势策略:作弊每天生产$"" 万桶。沙特阿拉伯的优势策略则是遵守协议,每天仍然生产#"" 万桶。为什么会这样呢?沙特阿拉伯选择遵守协议也是出于纯粹的自利心理。假如它有一个较低的生产数量,则市场价格攀升,欧佩克全体成员的边际利润上扬。如果它的产量只占欧佩克总产量一个很小的份额,它自然很难发现价格上扬对自己的好处。如果它占的份额很大,他将占有上扬的边际利润的大部分好处,因此牺牲一些产量也是值得的。智猪博弈模型给了竞争中的弱者(小猪)最佳策略的启发。但是对于社会而言,由于小猪未能参加竞争,小猪搭便车式的社会资源配置并不是最佳状态。为使资源有效配置,避免“小猪躺着大猪跑”的现象,游戏规则的设计就非常关键了。规则的核心指标是:每次落下的食物数量和踏板与投食口之间的距离。如果改变核心指标,会出现什么样的现象呢?改变方案一:减量方案。投食仅是原来的一半分量。结果是大猪和小猪都不去踩踏板了。因为无论谁去踩,对方都会把食物吃完,所以谁都不会有踩踏板的动力了。这个游戏规则的设计抑制了竞争,显然是失败的。
结果是小猪大猪都会去踩踏板,反正对方不会一次性把食物吃完。这个规则的成本相当高(每次提供双份食物),而且竞争也不强烈,效果也不好。改变方案三:减量加移位方案。投食仅为原来的一半分量,但同时将投食口移到踏板附近。结果大猪和小猪都拼命抢着踩踏板,多劳多得,每次的收获刚好消费完。这个游戏的规则是最好的,成本不高,但收获最大。在现实生活中,公司的激励制度设计就必须充分利用智猪博弈的策略。如果公司的奖励力度太大,又是持股,又是期权,公司职员各个都成了百万富翁,成本高不说,员工的积极性并不一定很高;如果奖励力度不大,而且见者有份(不劳动的小猪也有),一度十分努力的大猪也不会有动力了;最好的激励机制就是———奖励并非人人有份,而是直接针对个人(如业务按比例提成),这样既节约了公司的成本,又消除了“搭便车”现象,能够实现有效的激励。随着社会生活各个方面的竞争性和对抗性的增强,随着人们对自身行为和决策的理性及效率的更高层次的追求,更多地利用博弈的原理指导我们的行动,能让我们在既定规则下选择更为适宜的策略,或是在制度设计、规则优化方面思路更开阔,考虑更全面,从而获得更加理想的结果。! 作者单位:国家发改委价检司"#$%&’———我对你诉说# 王春廷张海涛许多双手敲打着不同电话机上的#$%&’———这同一键盘不同声音诉说着问题疑难对可信赖的你发出渴望公平的呼唤你是一柄利剑高悬于不法经营者之顶违规“必斩”你是一把标尺准确丈量价格的法律界限事实为鉴因你的存在我们不再把受到的委屈强行吞咽因你的秉公经济上的损失被追还捍卫了应有的尊严价格领域的法官你倾听百姓的肺腑之言作出公正的评断你给出的满意答案就是一股春风化解了群众的抱怨因为你消费者们不再心烦意乱因为你迷茫中找到失落已久的主见有了你生活更加圆满有了你生存更觉安全每个人心中溢满由衷的称赞对你的认识也许并不全面但我们知晓“全心全意为人民服务”就是你工作的出发点及时准确严谨实办是你永恒的职业理念微欲微慎微独微权是你永不忘却的誓言让世间不再有狡诈欺骗是你不懈的追求即便是永久的失业也心甘情愿!#"$#%$&%’风雨中的一把伞!#"$#%$&%’寒冬里的一缕暖一株常青树因所有人的倾情浇灌枝繁叶茂茁壮参天!作者单位:山东省夏津县物价局!"
以前没发现,但在学习了 博弈论基础的知识后,很容易的发现,博弈如同空气般,围绕在我们身边,无处不在。生活中的大小事怎么个博弈法,下面的内容将娓娓道来。
无论在日常生活中还是在工作中,“博弈”都是一个高频的词汇,生活中的博弈和经济学中的博弈有怎样的关系,精通“博弈”的人会不会特别擅长“套路”,“博弈论”到底是怎样的一种思维?下面我们来从以下方面谈论一下。
一、博弈论的定义
博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。 博弈论思想古已有之,中国古代的《孙子兵法》等著作就不仅是一部军事著作,而且算是最早的一部博弈论著作。
二、博弈论的发展
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。近代对博弈论的研究,开始于策 梅洛、波莱尔、冯·诺依曼。
1928年, 冯·诺依曼 证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。1944年, 冯·诺依曼 和 摩根斯坦 共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年, 约翰·福布斯·纳什 利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。此外, 莱因哈德·泽尔腾、约翰·海萨尼 的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。
三、博弈论的例子
“博弈论”中有一些由点及面、发人深思的经典案例,这些案例不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然;不仅成为“博弈论”中的一道亮丽风景,也是整个经济学领域中的学术奇葩。
一囚徒困境
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个帕累托改进办不到,因为它不能满足人类的个体的理性要求。
囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。
前几年,我国彩电市场上,生产厂家基于自我利益选择大幅降价,但由此引发的价格战使所有生产厂家都遭受重创,这也是一种囚徒困境。
二智猪博弈
猪圈里面有两只猪, 一只大,一只小。猪圈很长,一头有一个踏板,另一头是饲料的出口和食槽。每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只 猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪 会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。所以呢小猪为了能吃饭东西,最好的策论就是大大猪的“便车”。这种情况在现实中比比皆是。
比如,在某种新产品刚上市,其性能和功用还不为人所熟识的情况下,如果进行新产品生产的不仅是一家小企业,还有其他生产能力和销售能力更强的企业。那么,小企业完全没有必要作出头鸟,自己去投入大量广告做产品宣传,只要采用跟随战略即可。
“智猪博弈”告诉我们,谁先去踩这个踏板,就会造福全体,但多劳却并不一定多得。
三那什均衡
纳什均衡最核心的其实就是互利的思想。有个小故事就可以体现。街上相邻的地方有两家小店,一家卖稀饭豆浆,一家卖油条馒头,一般客人都是买上馒头油条去和稀饭豆浆,所以开始两家的生意都很红火。后来卖豆浆的觉得卖油条的抢了生意,双方产生了矛盾,卖油条的走了,结果连带自己的生意也不行了。
其实我们生活中有很多与博弈相关的例子。而在这样一个复杂的博弈战场上,我们怎么能使得自己在博弈场上获得最大的利益就是一门很大的学问了。所以,博弈论是一门很有用的学科。通过读书学习让我又懂得了一问学问。