我也是法学专业的,前天刚答辩完,只不过我是刑法第一个出场,论文又涉及极具争议的邓玉娇案,所以答辩居然花了50分钟。根据我的答辩过程,说说我的感受吧,希望对你有用。
自述方面,先向老师说问候语,然后介绍自己是某级某班的某某,自己论文的题目,论文主体研究的目的,意义。接着介绍论文的结构,分几个部分,每个部分写的是什么,以及自己的研究成果。最后结束语要感谢自己的导师,希望各位答辩老师指正。自述要尽量简练,让答辩老师熟悉论文的大概,尽量在5分钟内完成。你也可以上网搜一些答辩自述的范文来修改,然后背下来也行。
接下来就是老师问问题了。问题只要根据你论文的内容来定,比如对于小产权房的一些法律问题发表你的观点,也会对你论文中的案例进行提问,也会问一些理论方面的问题等。每个老师的注重都不一样,根据你刚写的论文目录,我觉得你论文的每一个部分都可能被问,特别是法律界定、法律风险和小产权房问题的解决对策。所以一定要多看自己的论文,最好滚瓜烂熟,因为好多问题都是论文中会涉及到的,老师也想看看你对你论文研究的熟悉程度。
一般来说,答辩需要15分钟左右(包括自述5分钟),老师会至少提2到3个问题,由易到难。我因为邓玉娇案子就杯具了,被问了十多个问题。最后,还有杀手锏,如果碰到一些很难的问题不会答,你就直接说:“老师,我水平有限,这个问题我还没有深入研究,请您指教。”这招屡试不爽,这样老师也不会为难你了。最后还是那句话,要熟悉自己的论文,答辩的时候要随即应变,不要跟老师降嘴,这样对你没好处。
答辩时候没必要紧张,一般都会过的,除非你真的是答非所问,一问三不知。以上就是我的经验,祝你好运。
各位老师,上午好!我叫谢天香,是07计 2班的学生,我的论文题目是贝叶斯分类算法的设计与实现。论文是在导师的悉心指导下完成的,在这里我向我的导师表示深深的谢意,同时向各位老师参加我的论文答辩表示衷心的感谢。下面我将本论文设计的目的和主要内容向各位老师作一汇报,恳请各位老师批评指导。
首先,我想谈谈这个毕业论文设计的目的及意义。……
其次,我想谈谈这篇论文的结构和主要内容。
本文分成4个部分.
第1章,绪论。主要介绍了贝叶斯分类器研究的意义,国内外发展现状和本课题研究内容。
第2章,贝叶斯分类算法概述。介绍了本系统采取的核心算法—贝叶斯算法的数学模型,贝叶斯分类器的工作原理与理论原型。
第3章,贝叶斯分类算法的设计与实现。讨论了贝叶斯分类算法的设计模型,分析了该模型实验的各个步骤,以及具体实现。
第4章,总结。对本论文进行了总结工作,并指出这些方法不足之处,为将来的实验研究作好了铺垫。
最后,我想谈谈这篇论文和系统存在的不足。
由于我把178个样本分成了130个训练样本和48个测试样本,训练样本与测试样本的比例不是很高,所以得到的TP没有达到理想的程度。
这篇论文的写作以及修改的过程,也是我越来越认识到自己知识与经验缺乏的过程。虽然,我尽可能地收集材料,运用自己所学的知识进行论文写作,但论文还是存在许多不足之处,有待改进。请各位评委老师多批评指正,让我在今后的学习中学到更多,谢谢!
这是我的开场白 希望对你有用
概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。
如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系, 最后基于这样的关系图获得一个概率分布 ,非常“优雅”地解决了问题。
概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中 有向边表示单向的依赖,无向边表示相互依赖关系 。
概率图模型分为 贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network) 两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表 示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。
长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会想都不用想,会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的 概率θ始终都是1/2 ,即不随观察结果X 的变化而变化。
这种 频率派 的观点长期统治着人们的观念,直到后来一个名叫Thomas Bayes的人物出现。
托马斯·贝叶斯Thomas Bayes(1702-1763)在世时,并不为当时的人们所熟知,很少发表论文或出版著作,与当时学术界的人沟通交流也很少,用现在的话来说,贝叶斯就是活生生一民间学术“屌丝”,可这个“屌丝”最终发表了一篇名为“An essay towards solving a problem in the doctrine of chances”,翻译过来则是:机遇理论中一个问题的解。你可能觉得我要说:这篇论文的发表随机产生轰动效应,从而奠定贝叶斯在学术史上的地位。
这篇论文可以用上面的例子来说明,“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率θ是多少?”贝叶斯认为取得白球的概率是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式,便是 贝叶斯式的思考方式。
先简单总结下频率派与贝叶斯派各自不同的思考方式:
贝叶斯派既然把看做是一个随机变量,所以要计算的分布,便得事先知道的无条件分布,即在有样本之前(或观察到X之前),有着怎样的分布呢?
比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为 先验分布,或着无条件分布 。
其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。
而 后验分布 π(θ|X)一般也认为是在给定样本X的情况下的θ条件分布,而使π(θ|X)达到最大的值θMD称为 最大后验估计 ,类似于经典统计学中的 极大似然估计 。
综合起来看,则好比是人类刚开始时对大自然只有少得可怜的先验知识,但随着不断观察、实验获得更多的样本、结果,使得人们对自然界的规律摸得越来越透彻。所以,贝叶斯方法既符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。
条件概率 (又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
比如上图,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率:
联合概率:
边缘概率(先验概率):P(A)或者P(B)
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。
贝叶斯网络的有向无环图中的节点表示随机变量
它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。
例如,假设节点E直接影响到节点H,即E→H,则用从E指向H的箭头建立结点E到结点H的有向弧(E,H),权值(即连接强度)用条件概率P(H|E)来表示,如下图所示:
简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。
此外,对于任意的随机变量,其联合概率可由各自的局部条件概率分布相乘而得出:
1. head-to-head
依上图,所以有:P(a,b,c) = P(a) P(b) P(c|a,b)成立,即在c未知的条件下,a、b被阻断(blocked),是独立的,称之为head-to-head条件独立。
2. tail-to-tail
考虑c未知,跟c已知这两种情况:
3. head-to-tail
还是分c未知跟c已知这两种情况:
wikipedia上是这样定义因子图的:将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图(Factor Graph)。
通俗来讲,所谓因子图就是对函数进行因子分解得到的 一种概率图 。一般内含两种节点:变量节点和函数节点。我们知道,一个全局函数通过因式分解能够分解为多个局部函数的乘积,这些局部函数和对应的变量关系就体现在因子图上。
举个例子,现在有一个全局函数,其因式分解方程为:
其中fA,fB,fC,fD,fE为各函数,表示变量之间的关系,可以是条件概率也可以是其他关系。其对应的因子图为:
在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一就是把贝叶斯网络或马尔科夫随机场转换成因子图,然后用sum-product算法求解。换言之,基于因子图可以用 sum-product 算法 高效的求各个变量的边缘分布。
详细的sum-product算法过程,请查看博文: 从贝叶斯方法谈到贝叶斯网络
朴素贝叶斯(Naive Bayesian)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。**朴素贝叶斯可以看做是贝叶斯网络的特殊情况:即该网络中无边,各个节点都是独立的。 **
朴素贝叶斯朴素在哪里呢? —— 两个假设 :
贝叶斯公式如下:
下面以一个例子来解释朴素贝叶斯,给定数据如下:
现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?
这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁或者不嫁的答案!这里我们联系到朴素贝叶斯公式:
我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量,这三个变量都能通过统计的方法求得。
等等,为什么这个成立呢?学过概率论的同学可能有感觉了,这个等式成立的条件需要特征之间相互独立吧!对的!这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独立,那么这个等式就成立了!
但是为什么需要假设特征之间相互独立呢?
根据上面俩个原因,朴素贝叶斯法对条件概率分布做了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯也由此得名!这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
朴素贝叶斯优点 :
朴素贝叶斯缺点 :
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
朴素贝叶斯模型(Naive Bayesian Model)的 朴素(Naive)的含义是"很简单很天真" 地假设样本特征彼此独立. 这个假设现实中基本上不存在, 但特征相关性很小的实际情况还是很多的, 所以这个模型仍然能够工作得很好。
新闻分类 GitHub: 点击进入
【 机器学习通俗易懂系列文章 】
从贝叶斯方法谈到贝叶斯网络
改革开放之初,社会建设急需人才,博士生的学习年限为2-3年。随着博士生规模的扩大,质量要求提高,1986年底博士学制放宽至3年。
如今高层次人才对博士生的培养要求更高,3年让博士生做出高水平科研成果,颇有些吃力。
厦门大学《关于将我校博士生学制由三年延长为四年的说明》指出:我校博士生准时毕业率偏低,按时毕业率不到40%,学制改革势在必行。
前不久,新中国成立以来首次全国研究生教育会议在北京召开,对研究生的改革作出顶层设计。
随后,中国传媒大学召开研究生教育会议,全面拉开改革大幕。自2021级起,中国传媒大学将博士生基本学制由3年改为4年。
目前,我国已有29所“双一流”高校实行4年博士学制,7所高校实行3-4年弹性学制,博士四年学制渐成主流。
我国高校博士的培养周期,其实不算长。美国国家科学基金会的数据显示,2017年美国博士修业年限中位数为5.8年。
博士生延毕普遍,论文发表未达到毕业要求是重要原因。不少高校对博士生在校期间发表的SCI论文的数量和级别都有要求,且作为进入学位答辩程序前的必要条件。
实际上,根据《中华人民共和国学位条例》规定,高等学校和科学研究机构的研究生,通过博士学位的课程考试和论文答辩,成绩合格,达到相应学术水平者,即应授予博士学位。
2019年,清华大学修订《攻读博士学位研究生培养工作规定》,提出不再将博士生在学期间发表论文达到基本要求作为学位申请的硬性指标。
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中高手几乎都在用到它。
生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家突然意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策 略;Google用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得 的信息;人工智能、机器翻译中大量用到贝叶斯定理。
我将从以下4个角度来科普贝叶斯定理及其背后的思维:
1.贝叶斯定理有什么用?
2.什么是贝叶斯定理?
3.贝叶斯定理的应用案例
4.生活中的贝叶斯思维
1.贝叶斯定理有什么用?
英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。
(ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的使用意义,你才会更有兴趣去学习它。)
在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,比如杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出中奖球的概率是多大。
根据频率概率的计算公式,你可以轻松的知道中奖的概率是2/10
如果还不懂怎么算出来的,可以看我之前写的科普概率的回答: 猴子:如何理解条件概率?
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。
这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的一个直接的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个问题领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
为什么贝叶斯定理在现实生活中这么有用呢?
这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。
比如天气预报说,明天降雨的概率是30%,这是什么意思呢?
我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨。
而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。
贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出概率。
贝叶斯定理的思考方式为我们提供了明显有效的方法来帮助我们提供能力,以便更好地预测未来的商业、金融、以及日常生活。
总结下第1部分:贝叶斯定理有什么用?
在有限的信息下,能够帮助我们预测出概率。
所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
2.什么是贝叶斯定理?
贝叶斯定理长这样:
到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。
其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。
我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他想知道女神是不是喜欢他呢?
谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
首先,我分析了给定的已知信息和未知信息:
1)要求解的问题:女神喜欢你,记为A事件
2)已知条件:女神经常冲你笑,记为B事件
所以说,P(A|B)是女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
从公式来看,我们需要知道这么3个事情:
1)先验概率
我 们把P(A)称为'先验概率'(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断。这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女 神喜欢一个人的概率,这里我们假设是50%,也就是不能喜欢你,可能不喜欢还你的概率都是一半。
2)可能性函数
P(B|A)/P(B)称为'可能性函数'(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。
可 能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率/主观判断),但是当你学 习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数/调整因子),最后重新理解了“人工 智能”这个信息(后验概率)
如果'可能性函数'P(B|A)/P(B)>1,意味着'先验概率'被增强,事件A的发生的可能性变大;
如果'可能性函数'=1,意味着B事件无助于判断事件A的可能性;
如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小
还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑。所以我估计出'可能性函数'P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子)
3)后验概率
P(A|B)称为'后验概率'(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%
因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的'先验概率'一下子提高到了75%的'后验概率'。
在得到预测概率后,小鹿自信满满的发了下面的表白微博:无图
稍后,果然收到了女神的回复。预测成功。无图
现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的最关键思想了:
我们先根据以往的经验预估一个'先验概率'P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。
因此,贝叶斯定理可以理解成下面的式子:
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)
贝叶斯的底层思想就是:
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
如果用图形表示就是这样的:
其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的信念值,完全不受其他环境影响。
3.贝叶斯定理的应用案例
前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
为了后面的案例计算,我们需要先补充下面这个知识。
1.全概率公式
这个公式的作用是计算贝叶斯定理中的P(B)。
假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
这时候来了个事件B,如下图:
全概率公式:
它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。
看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。
案例1:贝叶斯定理在做判断上的应用
有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
问题:这颗巧克力来自1号碗的概率是多少?
好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。
第1步,分解问题
1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?
来自1号碗记为事件A1,来自2号碗记为事件A2
取出的是巧克力,记为事件B,
那么要求的问题就是P(A1|B),即取出的是巧克力,来自1号碗的概率
2)已知信息:
1号碗里有30个巧克力和10个水果糖
2号碗里有20个巧克力和20个水果糖
取出的是巧克力
第2步,应用贝叶斯定理
1)求先验概率
由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)
这个概率就是'先验概率',即没有做实验之前,来自一号碗、二号碗的概率都是0.5。
2)求可能性函数
P(B|A1)/P(B)
其中,P(B|A1)表示从一号碗中(A1)取出巧克力(B)的概率。
因为1号碗里有30个水果糖和10个巧克力,所以P(B|A1)=30/(30+10)=75%
现在只有求出P(B)就可以得到答案。根据全概率公式,可以求得P(B)如下图:
图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。
而P(A1)=P(A2)=0.5
将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%
所以,可能性函数P(A1|B)/P(B)=75%/62.5%=1.2
可能性函数>1.表示新信息B对事情A1的可能性增强了。
3)带入贝叶斯公式求后验概率
将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:
第1步. 分解问题
简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。
1)要求解的问题是什么?
识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)
2)已知条件是什么?
第2步.应用贝叶斯定理
第3步,求贝叶斯公式中的2个指标
1)求先验概率
2)求可能性函数
3)带入贝叶斯公式求后验概率