用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。如果p值很小,说明在原假设下极端观测结果的发生概率很小。而如果出现了,根据小概率原理,就有理由拒绝原假设;p值越小,拒绝原假设的理由越充分。p值是基于数据的检验统计量算出来的概率值。如果p值是5%,也就是说,如果以此为界拒绝原假设的话,那么只有5%的可能性犯错。原假设是对的,但却拒绝了,这是错误的。所以说p值越大,拒绝原假设的理由越不充分。如果p值接近于0,拒绝原假设,那么几乎不可能犯错,于是说明数据是极其不符合原假设。换言之,是假设检验中零假设成立或表现更严重的可能性。p值若与选定显著性水平(05或01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。通常在连续分布的假设下,p值是一个服从[0,1]区间均匀分布的随机变量,在实际使用中因样本等各种因素存在不确定性。近100年来,统计学家使用p值来描述数据的统计显著性,这种方法造成了许多人在工作中把统计显著性的阈值(事先给定值)强行假定为大于等于实际显著性(实际数据计算出的p值),于是强行拒绝原假设,做出了很多不科学的决策。p值产生的结果可能会带来争议。2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从05调整到005。这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值。在科学研究的许多领域,p值小于05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是费雪也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。历史p值的计算可以追溯到18世纪,当时计算的是人类出生性别比,并与男女出生概率相同的零假设相比的统计学差异。约翰·阿布斯诺特于1710年研究了这一问题,并检查了伦敦从1629年到1710年的82年中每一年的出生记录。阿布斯诺特观察到每一年在伦敦出生的男婴数都超过了女婴数。考虑到零假设是男性或女性出生概率相同,这一观察结果出现的概率是1/282,或约为4,836,000,000,000,000,000分之1;这个计算得到的值,用现代术语说,就是P值。这个数字小得惊人,使阿布斯诺特认为这一结果的出现不是由于几率,而是由于神的旨意。“由此可见,支配一切的是艺术,而不是几率”。用现代术语来说,他在p=1/282的显著性水平上拒绝了男女出生可能性相同的零假设。1925年,英国遗传学家兼统计学家罗纳德·爱尔默·费希尔出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使费雪成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。 费雪建议,作为一个方便的指南,研究人员可以考虑将p值设为05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”