1.1.1 随机现象:
概率论与数理统计的研究的对象就是随机现象,随机现象就是在一定的条件下不总是出现相同的结果的现象,也就是不能肯定的确定结果的现象就统称为随机现象。现实生活中有很多的随机现象比如同一学校统一专业的学生考上研究生的现象就是随机现象,你不能说哪一个学生肯定能够考上某所学校但是你能根据这所学校往年的数据估算出这所学校的考研率,在一定程度上也就能够大致估算出这所学校某某同学考上研究生的可能性有多大,当然一个学生能不能考上研究生与这所学校的考研率并没有必然的联系因为是随机的具有不确定性,但有一定的相关程度在里面。整个概率论研究的就是随机现象的模型(概率分布),而概率分布则是能够用来描叙某随机现象特征的工具。有阴就有阳,有了随机事件自然与之对应的就是确定性现象(如太阳每天东升西落)
1.1.2 样本空间:
随机现象一切可能 基本结果 所构成的集合则称为样本空间,其集合内的元素又称为样本点,当样本点的个数为可列个或者有限个的时候就叫做离散型样本空间,当样本点的个数为无限个或者不可列个的时候就叫做连续型样本空间。( 可列个的意思是可以按照一定的次序一一列举出来,比如某一天内到达某一个商场内的人数都是整数1,2,3。。。。,这叫可列个,不可列个的意思比如电视机的寿命,有100.1小时的有100.01小时的有100.0001小时的,你永远不能按照次序列举出比一百小的下一个元素到底是哪一个,这就叫不可列)。
1.1.3 随机事件:
随机现象某些样本点组成的集合叫做用一个 随机事件 ,也就是说随机事件是样本空间的一个子集,而样本空间中单个元素所组成的集合就叫做 基本事件 ,样本空间自身也是一个事件叫做 必然事件 ,样本空间的最小子集也即空集就叫做 不可能事件
1.1.4 随机变量:
用来表示随机现象结果的变量称为 随机变量 ,随机变量的取值就表示随机事件的结果,实际上随机事件的结果往往与一个随机变量的取值可以一一对应
1.1.5 随机事件之间的运算与关系:
由于我们将随机事件定义成一个集合事件间的运算也可看作是集合间的运算,集合间的诸运算如交集、并集、补集、差集等运算随机事件之间也有,而且运算规则一致。集合间的包含、相等、互不相容、对立,事件之间也有,随机事件间的运算性质满足交换律、结合律、分配率、德摩根定律。
1.1.6 事件域:
事件域为样本空间的某些子集所组成的集合类而且满足三个条件,事件域中元素的个数就是样本空间子集的个数,比如一个有N个样本点的样本空间那么他的事件域就有 个元素,定义事件域主要是为了定义事件概率做准备。
概率论中最基本的一个问题就是如何去确定一个随机事件的概率,随机事件的结果虽然具有不确定性,但是他发生的结果具有一定的规律性(也即随机事件发生可能性的大小),而用来描叙这种规律性的工具就是概率,但是我们怎么样来给概率下一个定义嘞?如何度量描叙事件发生可能性的大小嘞?这是一个问题。
在概率论的发展史上针对不同的随机事件有过各种各样的概率定义,但是那些定只适用于某一类的随机事件,那么如何给出适合一切随机现象概率的最一般的定义嘞?1900年数学家希尔伯特提出要建立概率的公理化定义,也就是建立一个放之四海而皆准的满足一切随机事件的概率的定义,用概率本质性的东西去刻画概率.1933年前苏联数学家柯尔莫哥洛夫首次提出了概率的公理化定义,这个定义既概括了历史上几种概率的定义中的共同特性,又避免了各自的含混不清之处,不管什么随机现象只有满足该定义中的三条公理,才能说明他是概率,该定义发表之后得到了几乎所有数学家的一致认可。(说点题外话,如果某位数学工作者提出了某个重大的发现,首先需要写论文获得学术圈内的人士一致认同他的这个发现才能够有可能被作为公理写进教科书,之所以被称作公理就因为它既是放之四海而皆准的准则也是公认的真理)。
1.2.1 概率的三条公理化定义:
每一个随机事件其背后必定伴随着有她的样本空间(就像有些成功的男人背后都有一位贤内助),每一个随机事件都属于样本空间的事件域,样本空间的选取不同对同一个随机事件而言其概率通常也会不同。
如果概率满足以上三条公理则称有样本空间、事件域、概率所组成的空间为概率空间,满足以上三条公理的概率才能称之为概率。
概率的公理化定义并没有给出计算概率的方法因此知道了什么是概率之后如何去确定概率就又成了一个问题。
1.2.2 确定概率的频率方法:
确定概率的频率方法应用场景是在能够大量重复的随机实验中进行,用频率的稳定值去获得概率的估算值的方法思想如下:
为什么会想到用频率去估算概率嘞?因为人们的长期实践表明随着试验次数的增加,频率会稳定在某一个常数附近,我们称这个常数为频率的稳定值,后来的伯努力的大数定律证明了其稳定值就是随机事件发生的概率,可以证明频率一样满足概率的三条公理化定义由此可见频率就是“伪概率”。
1.2.4 确定概率的古典方法:
古典问题是历史上最早的研究概率论的问题,包括帕斯卡研究的骰子问题就是古典问题,他简单直观不需要做大量的试验我们就可以在经验事实的基础上感性且理性的分析清楚。
古典方法确定概率的思想如下:
很显然上叙古典概率满足概率的三条公理化定义,古典概型是最古老的确定概率的常用方法,求古典概率归结为求样本空间样本点的总数和事件样本点的个数,所以在计算中常用到排列组合的工具。
1.2.5 确定概率的几何方法:
基本思想:
1.2.6 确定概率的主观方法:
在现实世界中一些随机现象是无法进行随机试验的或者进行随机试验的成本大到得不偿失的地步,这时候的概率如何确定嘞?
统计学界的贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生可能性的个人信念,这样给出的概率就叫做主观概率,比如我说我考上研究生的概率是百分之百(这当然有吹牛的成分在里面,但是里面有也包含了自信和自己对自己学习情况的了解以及自己对所报考院校的了解),比如说某企业家说根据它多年的经验和当时的一些市场信息认为某项新产品在市场上畅销的可能性是百分之80(这种话如果是熟人在私下里跟你说你还可以相信但是也要小心,如果是陌生人当着很多人的面说的你会相信吗?傻X才相信对不对?这么畅销你自己为什么不去做还把蛋糕分给老子?)。主观概率就是人们根据实际情况对某件事情发生的可能性作出的估计,但是这种估计的好坏是有待验证的。
这个理解了都不用特意去记要用的时候信手捏来,我是个很勤快的人其他公式都懒得记懒得写了。。。。下面只分析条件概率、全概率公式、贝叶斯公式:
1.3.1 条件概率:
所谓条件概率就是在事件A发生的情况下B发生的概率,即A B为样本空间 中两两事件若P(B)>0则称:
为在B发生的前提下A发生的条件概率,简称条件概率。
这个公式不难理解,实际上上面公式 也就是说“ 在B发生的条件下A发生的概率等于事件A与事件B共有的样本点的个数比上B的样本点的个数”,而且可以验证此条件概率满足概率的三条公理化定义。
1.3.2 乘法公式:
1.3.3 全概率公式:
设 为样本空间 的一个分割,即 互不相容,且 ,如果 则对任一事件A有:
这个公式也是很好理解的因为诸 互不相容而且其和事件为样本空间,故A事件中的样本点的个数等于A与诸 中共有样本点的和。
1.3.4 贝叶斯公式:
贝叶斯公式是在全概率公式和乘法公式的基础上推得的。
设若 为样本空间的一个分割,即 互不相容,且 如果 则:
公式的证明是根据条件概率来的,然后在把分子分母分别用乘法公式和全概率公式代替即可,公式中的 一般为已知概率称之为 先验概率 公式中 则称之为 后验概率 ,全概率公式和乘法公式为由原因推结果,而贝叶斯公式则为由结果推原因。
1.3.5 事件独立性:
上面我们介绍了条件概率这个概念,在条件A下条件B发生的概率为 ,如果B的发生不受A的影响嘞?直觉上来讲这就将意味着
故引入如下定义对任意两个事件A,B若 则称事件A与事件B相互独立
除了两个随机事件相互独立满足的定义当然也会有多个随机事件独立满足的定义,对N随机事件相互独立则要求对事件中的任意 个随机事件都相互独立.
1.3.6 伯努利概型:
定义:如果实验E只有两种可能的结果: ,然后把这个试验重复n次就构成了n重伯努利试验或称之为伯努利概型.显然每次伯努利试验事件结果之间是相互独立互不影响的,则伯努利试验显然是服从二项分布的,之后再介绍二项分布。
1.4.1 离散型随机变量:
之前说过用来表示随机现象结果的变量称之为随机变量,如抛掷一枚骰子随机变量的取值可以为1,2,3….显然此时随便试验的结果与随机变量的取值是一一对应的,于是我们将研究随机试验结果的统计规律转化为研究随机变量取值的统计规律,这种对应关系是人为的建立起来的同时也是合理的,只取有限个或者可列个值时候的随机变量则称之为离散型随机变量。
1.4.2 随机变量的分布列:
将随机变量的取值与其对应取值的可能性大小即概率列成一张表就称之为分布列,分布列使得随机变量的统计规律一目了然也方便计算其特征数方差和均值。分布列满足如下两个性质:
满足以上两个性质的列表则称之为分布列
1.4.3 分布函数:
设若X为一个随机变量,对任意的实数x,称 为随机变量X的分布函数记为 .
分布函数满足以下三个性质:
以上上个性质是一个函数能否成为分布函数的充要条件。
1.4.4 数学期望和方差:
先来看一个例子,某手表厂在出产的产品中抽查了N=100只手表的日走时误差其数据如下:
这时候这100只手表的平均日走时误差为: 其中 是日走时误差的频率记做 则
平均值 即平均值为频数乘以频率的和,由于在 时频率稳定于概率,于是在理论上来讲频率应该用概率来代替,这时我们把频率用概率来代替之后求出的平均值称之为数学期望(实际上由后面的大数定律可得平均值也稳定于数学期望),数学期望在一定程度上反映了随机变量X结果的平均程度即整体的大小,我们记为 。
定义:设X是一个随机变量X的均值 存在 如果 也存在则称之为随机变量X的方差记为 .
显然方差也是一个均值那么他是什么的均值嘞? 表示随机变量的均值离差, 由随机变量平均值的离差和等于零我们可以推的随机变量均值的离差和也等于零故均值离差和的均值 也等于零,但是我们希望用离差来刻画不同分布间的差别如果用均值离差和的均值那么任何分布都为零,于是我们将离差加上一个平方变成 这样避免了离差和为零。那么方差这个表示分布特征的数又有什么重要意义嘞?很多人看似学完了概率统计,但是居然连方差的意义都没有搞清楚,实际上方差是用来刻画数据间的差异的,而刻画数据间的差异无论是在空间上的向量还是在平面上的点,用距离来刻画他们之间的差异是再好不过的。在物理学上要想正确合理的比较两动体的速度加速度我们就需要选取合适的参考系来进行对比,同样在比较数据间的差异的时候我们也往往用均值来做他们的参考(实际上其他的值也可以用来进行比较,但是那可能造成方差过大的现象),与均值的距离越大说明他们的差异也越大,而距离又有正负之分因此为了区别正负我们也需要把与均值的距离加上一个平方,这也就是方差概念的来源。我们通常用方差来描叙一组数据间的差异,方差越小数据越集中,越大数据越分散,同时在金融上面也用来评估风险比如股价的波动性,我们当然希望股价的波动越是平稳即方差越小、收益越稳定越好。
因为均值和方差描叙了随机变量及其分布的某些特征因此就将其称之为特征数.
1.4.5 连续型随机变量的密度函数:
连续型随机变量的取值可能充满某一个区间为不可列个取值,因此描叙连续型随机变量的概率分布不能再用分布列的行时呈现出来,而要借助其他的工具即概率密度函数。
概率密度函数的由来:比如某工厂测量一加工元件的长度,我们把测量的元件按照长度堆放起来,横轴为元件的单位长度,纵轴为元件单位长度上的频数,当原件数量很多的时候就会形成一定的图形,为了使得这个图形稳定下来我们将纵坐标修改为单位长度上的频率,当元件数量不断增多的时候由于频率会逐步稳定于概率,当单位长度越小,原件数量越多的时候,这个图形就越稳定,当单位长度趋向于零的时候,图形就呈现出一条光滑的曲线这时候纵坐标就由“单位长度上的概率”变为“一点上的概率密度”,此时形成的光滑曲线的函数 就叫做概率密度函数,他表现出x在一些地方取值的可能性较大,一些地方取值的可能性较小的一种统计规律,概率密度函数的形状多种多样,这正是反映了不同的连续随机变量取值统计规律上的差别。
概率密度函数 虽然不是密度但是将其乘上一个小的微元 就可得小区间 上概率的近似值,即
微分元的累计就能够得到区间 上的概率,这个累计不是别的就是 在区间 上的积分 = .
由此可得x的分布函数 ,对于连续型随机变量其密度函数的积分为分布函数,分布函数求导即为密度函数
密度函数的基本性质:
1.4.6 连续型随机变量的期望和方差:
设若随机变量X的密度函数为 .
数学期望:
方差:
1.4.7 切比雪夫不等式(Chebyshev,1821-1894):
设随机变量X的数学期望和方差都存在,则对任意常数 有:
.
之所以有这个公式是因为人们觉得事件{ }发生的概率应该与方差存在一定的联系,这个是可以理解的,方差越大在某种程度上说明 X的取值偏离 越厉害即说明偏离值大于某个常数a的取值越多因此取值大于某个值的概率也越大,上面公式说明大偏差发生概率的上界与方差有关,方差越大上界也越大。
1.4.8 常用离散型分布:
1.4.9 常用的连续型分布: