二项分布（重复n次独立的伯努利试验）-趣爱秀

定义

统计学定义

在概率论和统计学中，二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当

时，二项分布就是伯努利分布，二项分布是显著性差异的二项试验的基础。

医学定义

在医学领域中，有一些随机事件是只具有两种互斥结果的离散型随机事件，称为二项分类变量（dichotomous variable），如对病人治疗结果的有效与无效，某种化验结果的阳性与阴性，接触某传染源的感染与未感染等。二项分布（binomial distribution）就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。

考虑只有两种可能结果的随机试验，当成功的概率（

）是恒定的

，且各次试验相互独立，这种试验在统计学上称为伯努利试验（Bernoulli trial）。如果进行n 次伯努利试验，取得成功次数为

的概率可用下面的二项分布概率公式来描述：

式中的n为独立的伯努利试验次数，π为成功的概率，

为失败的概率，X为在n次伯努里试验中出现成功的次数，表示在n次试验中出现X的各种组合情况，在此称为二项系数（binomial coefficient）。

所以的含义为：含量为n的样本中，恰好有X例阳性数的概率。

概念

二项分布（Binomial Distribution），即重复n次的伯努利试验（Bernoulli Experiment），用ξ表示随机试验的结果。

如果事件发生的概率是P,则不发生的概率

，N次独立重复试验中发生K次的概率是

，其中

，注意：第二个等号后面的括号里的是上标，表示的是方幂。

那么就说这个属于二项分布。其中P称为成功概率。^[1]记作

期望：

方差：

其中

证明：由二项式分布的定义知，随机变量X是n重伯努利实验中事件A发生的次数，且在每次试验中A发生的概率为p。因此，可以将二项式分布分解成n个相互独立且以p为参数的（0-1）分布随机变量之和.

设随机变量

服从（0-1）分布，则

因X(k)相互独立，所以期望：

方差：

证毕。

如果

1．在每次试验中只有两种可能的结果，而且是互相对立的；

2．每次实验是独立的，与其它各次试验结果无关；

3．结果事件发生的概率在整个系列试验中保持不变，则这一系列试验称为伯努利实验。

在这试验中，事件发生的次数为一随机事件，它服从二次分布。二项分布可

以用于可靠性试验。可靠性试验常常是投入n个相同的式样进行试验T小时，而只允许k个式样失败，应用二项分布可以得到通过试验的概率。

若某事件概率为p，现重复试验n次，该事件发生k次的概率为：

。

表示组合数，即从n个事物中拿出k个的方法数。

性质

（一）二项分布是离散型分布，概率直方图是跃阶式的。因为x为不连续变量，用概率条图表示更合适，用直方图表示只是为了更形象些。

1．当

时图形是对称的

例如，

，

，各项的概率可写作：

2．当

时，直方图呈偏态，

的偏斜方向相反。如果n很大，即使

，偏态逐渐降低，最终成正态分布，二项分布的极限分布为正态分布。故当n很大时，二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢？一般规定：当

，或

，这时的n就被认为很大，可以用正态分布的概率作为近似值了。

（二）二项分布的平均数与标准差

如果二项分布满足

时，二项分布接近正态分布。这时，也仅仅在这时，二项分布的x变量(即成功的次数)具有如下性质：

即x变量具有

，的正态分布。

式中n为独立试验的次数，p为成功事件的概率，

。由于n很大时二项分布逼近正态分布，其平均数，标准差是根据理论推导而来的，故用μ和σ而不用X和S表示。它们的含意是指在二项试验中，成功的次数的平均数

，成功次数的分散程。例如一个掷10枚硬币的试验，出现正面向上的平均次数为5次(

)，正面向上的散布程度为

，这是根据理论的计算，而在实际试验中，有的人可得10个正面向上，有人得9个、8个……，人数越多，正面向上的平均数越接近5，分散程度越接近1．58。

图形特点

（1）当

不为整数时，二项概率

时达到最大值；

（2）当

为整数时，二项概率

和

时达到最大值。

注：[x]为不超过x的最大整数。

应用条件

1．各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料。

2．已知发生某一结果（阳性）的概率为π，其对立结果的概率为

，实际工作中要求π是从大量观察中获得比较稳定的数值。

3．n次试验在相同条件下进行，且各个观察单位的观察结果相互独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。

应用实例

二项分布在心理与教育研究中，主要用于解决含有机遇性质的问题。所谓机遇问题，即指在实验或调查中，实验结果可能是由猜测而造成的。比如，选择题目的回答，划对划错，可能完全由猜测造成。凡此类问题，欲区分由猜测而造成的结果与真实的结果之间的界限，就要应用二项分布来解决。下面给出一个例子。

已知有正误题10题，问答题者答对几题才能认为他是真会，或者说答对几题，才能认为不是出于猜测因素?

分析：此题

，即猜对猜错的概率各为0．5。

，故此二项分布接近正态分布：

根据正态分布概率，当

时，该点以下包含了全体的95%。如果用原分数表示，则为

它的意义是，完全凭猜测，10题中猜对8题以下的可能性为95%，猜对8、9、10题的概率只5%。因此可以推论说，答对8题以上者不是凭猜测，而是会答。但应该明确：作此结论，也仍然有犯错误的可能，即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。

此题的概率值，还可用二项分布函数直接计算，亦得与正态分布近似的结果：

根据概率加法，答对8题及其以上的总概率为：

同理，可计算8题以下的概率为 95%。(近似)

分布关系

两个二项分布的和

如果

，且X和Y相互独立，那么

也服从二项分布；它的分布为：

伯努利分布

伯努利分布是二项分布在n= 1时的特殊情况。

的意思是相同的。相反，任何二项分布

都是n次独立伯努利试验的和，每次试验成功的概率为p。

泊松近似

当试验的次数趋于无穷大，而乘积np固定时，二项分布收敛于泊松分布。因此参数为λ=np的泊松分布可以作为二项分布B(n,p)的近似，近似成立的前提要求n足够大，而p足够小，np不是很小。

正态近似

时的二项分布及正态近似

如果n足够大，那么分布的偏度就比较小。在这种情况下，如果使用适当的连续性校正，那么B(n,p)的一个很好的近似是正态分布:

当n越大（至少20）且p不接近0或1时近似效果更好。不同的经验法则可以用来决定n是否足够大，以及p是否距离0或1足够远，其中一个常用的规则是np和

都必须大于 5。

应用范围

在生产实践过程中会有来自很多方面因素的影响，所有这些因素的综合作用导致过程动荡，从而体现出一些质量特性的不稳定性. 概率论与数理统计一些统计技术可以帮助我们了解和监控这些波动，帮助我们朝着有利于我们的方向发展。在生产实践中有一类现象，我们研究的对象只产生两种可能结果，他们的分布规律就是二项分布，二项分布应用很广泛。

经济学

在保险业务中，我们经常需要根据实际情况适当调整保费问题，以保证保险公司的利润达到一定要求，同时保险公司的业务量也达到要求，对于这一类问题，可以对已知实际情况做一定的概率分析。例如某保险公司有10000客户购买人身意外保险，该公司规定每人每年付公司120元，若遇意外死亡，公司将赔偿10000元。若每人每年死亡率为0.006，从而不难利用二项分布算出公司获利、亏本的各种情形了。实际上对于随机现象，了解其分布非常有意义，利用概率论讨论得到的结果对保险公司有一定的指导意义。

管理学

管理学在生产实践过程中我们经常需要配备一些设备，但是设备经常需要维修。为了保证设备正常工作，需配备适量的维修工人（工人配备多了就浪费，配备少了又影响生产）例如现有同类型设备300台，各台工作是相互独立的，发生故障的概率都是0.01。假设通常情况下一台设备的故障由一个人处理，可由二项分布算出至少需配备多少工人，才能保证设备发生故障但不能及时维修的概率小于0.01。

医学

在医学领域中，二项分布（binomialdistribution）可以对这类只具有两种互斥结果的离散型随机事件的规律性进行描述。

期望与方差

如果

（也就是说，X是服从二项分布的随机变量），那么X的期望值为：

X的方差为：

这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果：1和0，前者发生的概率为p，后者的概率为

。该试验的期望值等于

。该试验的方差也可以类似地计算：

。

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和：

参考资料

[1] 5个基本概念，从统计学到机器学习2020-10-06T18:10:46+08:00[引用日期2022-06-07 09:40:49]