Skip to content
Scroll to top↑

概率统计 施工中

MIT概率统计公开课学习笔记。

独立性

事件独立性向来是大众智商检验机,其中有不少乍看起来反常识的地方。

  1. 两事件A和B独立,等价于P(AB)=P(A)P(B). 两事件独立的根本含义是给定其中一方发生或不发生的信息,不能对我们推断另一事件起到任何帮助,只是我们定义事件独立时不写成P(A|B)=P(A)或者P(B|A)=P(B)(因为前者囊括了P(B)=0的情况,这时P(A|B)是无定义的)。

  2. 一个常见的误解就是混淆独立事件和不相容事件,如下图,事件A和B是不相容的,但不是相互独立的。因为给定了其中一方发生的前提,我们就可以断言另一方没有发生, 即一方提供的信息改变了我们对另一方的看法。假设A的概率是1/3,B的概率是1/4P(A)P(B)=1/12P(AB)=0.

  3. 即使两事件A和B独立,在给定了一些信息的情况下也会改变我们对两事件发生的看法。由此引出了条件独立的概念:P(AB|C)=P(A|C)P(B|C)。 这幅图比较形象,现给定前提A和B是独立的,但在C发生的条件下(在C发生的宇宙里),A和B之间就不再是独立的了,因为若A发生(AC阴影部分),我们可以断言B没有发生(BC阴影部分)。

    这告诉我们在常规概率模型中存在独立性并不意味着在条件概率模型中也具备独立性。教授又给了一个例子:假设有两枚不公平的硬币A和B,A正面向上的概率是0.9,B是0.1,等可能的概率选择一个硬币进行实验,考察如下几个问题:

    1. 如果明确正在使用的是硬币A,每次抛掷该硬币是独立的吗?显然是的,在确定了硬币的情况下,每次抛掷硬币正面向上的概率都和这个硬币的属性有关,不受前一次抛掷的影响。

    2. 在不知道抛掷的硬币是哪一个的情况下,第11次抛掷正面向上的概率是多少?P(toss 11=H)=1/2P(H|A)+1/2P(H|B)=1/2

    3. 在已知前10次抛掷的结果都是正面向上的情况下,第11次抛掷正面向上的概率是多少?

      前10次都是正面向上,给了我们很大的信心这个硬币是A(条件提供的信息改变了我们对假设的看法),在此情况下,可以推断第11次抛掷的结果会非常接近0.9(依然有很小的可能是B)。P(toss 11|first 10 tosses are H)0.9。比较上一个问题,会发现“first 10 tosses are H”的信息改变了我们对假设的看法。

  4. 对于条件独立,即使事件A、B和C两两独立,也不能说明A、B和C三者相互独立(多个事件彼此相互独立是指其中一件事件的发生与否不会改变对剩下事件的看法)。教授也给出了一个非常直观的例子:

    给定一个公平的硬币,抛一次正反两面的概率都是1/2,则抛两次的可能性如下表(将H指代正面向上):

    HH 1/4HT 1/4
    TH 1/4TT 1/4

    有:

    1. 事件A:第一次正面向上,P(A)=1/2
    2. 事件B:第二次正面向上,P(B)=1/2
    3. 事件C:两次抛掷是同样的面,P(C)=1/2

    考察事件P(C|AB),会发现A和B都发生给了我们一个非常明确的信息:两次抛掷的结果恰是HH,这进一步改变了我们对C发生的看法。已知是HH,则C已然发生,因此这个概率是1。 这时如果看一下P(AB)=P(A)P(B)=1/4,P(AC)=P(A)P(C)=1/4,P(BC)=P(B)P(C)=1/4,说明A、B和C是两两独立的。但P(ABC)=P(C|AB)P(AB)=1/4P(A)P(B)P(C)=1/8

  5. 一个经典问题:某人家有两个孩子,已知一个是男孩,问另一个是女孩的概率是多少?如果我没有学过条件概率一定会不假思索地回答1/2(教授称之为“naive answer”)。其实已有一个男孩的事实给了我们更多的信息,已经从样本空间排除掉了两个女孩的可能,因此正确答案是2/3。如果这个问题改变描述,某人家已经有一个男孩,问再生一个孩子是女孩的概率,那就是1/2了。

计数问题

  1. 理解排列和组合的关系

    1. k个不相同的物品乱序排列,可以看成有k个空位依次从物品中拿去放入,第一个空位有k个选择,第二个有k1个选择……则可能的排列有k!个。

    2. 如果物品一共有n个(nk),类似的有n(n1)...(nk+1)种顺序。

    3. 如果物品之间不计顺序,即从有n个元素的集合中选取k个,问子集的数量,记为(nk)。应当注意到上面(2)的结果等价于先做这个步骤,再将k个物品全排列, 因此有(nk)k!=n(n1)...(nk+1)(nk)=n!k!(nk)!

  2. 分割partition

    样本空间有n个元素,不留空隙地划分为k块,假设每块的大小依次为k0k1,...,则第一块等价于我们从n中选出k0个元素的集合,有(nk0)(nk0k1)...=n!k0!(nk0)!(nk0)!k1!(nk1)!...=n!k0!k1...。以一个扑克牌的例子说明:将52张牌均分给4个人,问每个人分得一张方块的概率是多少?首先确定样本空间,是将牌分成4份的分法数量52!13!13!13!13!, 其次将问题看成先分4张方块再分剩余48张牌的两个子问题,四张方块划分有4!1!1!1!1!=4!种分法,剩余48张牌我们要划分成4×12的四份,有48!12!12!12!12!种分法,根据乘法法则最终结果为4!48!12!12!12!12!52!13!13!13!13!。这个问题也可以用条件概率的视角看,画分支图,假设四张方块分别是ABCD,考虑事件“A和B在不同人的手里”、“A、B和C分在不同人的手里”和“A、B、C、D均在不同人的手里”。

    组合其实是划分为两个部分knk的分割问题。

    INFO

    P(B)很难计算,而(B|Ai)很容易时,很多全概率问题的关键都在于找到A中合适的分割来计算B

离散型随机变量

随机变量是样本空间到真实数值的一种映射,一种实值函数:

pX表示随机变量X的分布列。设x是随机变量X的取值,则使X取值为x的概率定义为X=x的概率,即所有与x对应的试验结果组成的事件的概率,记为pX(x),显然有:xpX(x)=1

数学期望

E[X]=xxpX(x),数学期望代表的是加权平均,和物理上重心的视角一致,将上图的X轴想象为一条没有质量的直杆,只在图上三个点处有配重,则整个杆子的重心就是数学期望值所在处。 利用这个思想可以巧解k=0nkn+1,看成是对于每个X都有pX(x)=1n+1的数学期望,显然图像的重心在n2处,故E[X]=n2

常量的数学期望E[2]:映射的结果始终是2,故平均值也是2。类似地可以推出E[X]的几个性质,其中αβ都为常量:

  1. E[αX]=αE[X]
  2. E[αX+β]=αE[X]+β
  3. E[X+Y+Z]=E[X]+E[Y]+E[Z]

复合型随机变量

Y=g(X)是关于随机变量X的函数,那么对于每一个结果x,也会对应一个Y的数值,故Y也是一个随机变量。对于明确给出的Y值,pY(y)可以通过{x|g(x)=y}(pX(x))来计算。

根据数学期望的定义,E[g(X)]=xg(x)pX(x)。应当注意,除非g(X)是线性变换,否则E[g(X)]g(E[X])。证明:

E[g(X)]=E[Y]=yypY(y)=yy{x|g(x)=y}pX(x)=y{x|g(x)=y}ypX(x)=y{x|g(x)=y}g(x)pX(x)=xg(x)pX(x)

由此公式可得E[Xn]=xxnpX(x),因此在计算E[X]n阶矩的时候不必求Xn的分布列。

随机变量一个重要的特征量是方差:

var(X)=E[(XE[X])2]=x(xE[X])2pX(x)=x(x22xE[X]+(E[X])2)pX(x)=E[X2]2(E[X])2+(E[X])2=E[X2](E[X])2

方差的一些性质(αβ都是常数):

  1. var(X)0
  2. var(X+β)=var(X)
  3. var(αX+β)=α2var(X)

标准差:σ(X)=var(X)

几种常见的随机变量

伯努利随机变量

考虑一枚硬币,设正面向上的概率为p,令正面向上的取值为1,反面向上的取值为0,得到分布列:

pX(k)={pk=11pk=0

其数学期望为E[X]=p,方差为var(X)=(1p)p

二项随机变量

考虑n次独立的抛掷实验,令X为得到正面的次数。得到分布列:

pX(k)=P(X=k)=(nk)pk(1p)nk, k=0, 1, ..., n

如果根据数学期望的定义求E[X]=x=0nx(nx)px(1p)nx会比较麻烦,考虑如下随机变量Xi

Xi={1if success in trial i0otherwise

利用数学期望的线性性质,注意到X=iXi,有E[X]=iE[Xi],而E[Xi]=1p+0(1p)=p,故很快得出E[X]=np

注意Xi2=Xivar(Xi)=E[Xi2](E[Xi])2=pp2,由于每次抛掷相互独立,var(X)=ivar(Xi)=np(1p)。这个值告诉我们当p=1/2的时候能够得到最大的随机性。

几何随机变量

在连续抛掷硬币的实验中,若考察第一次得到正面所需的次数X,则前k1次抛掷都需要是反面,最后一次是正面,其分布列为:

pX(k)=(1p)k1p, k=1, 2, ...

数学期望为E[X]=1p,方差为var(X)=1pp2。在计算过程中可以利用左右同乘p的技巧求出现的无穷级数的和。

泊松随机变量

泊松随机变量可以看作是对二项随机变量的近似,更多讨论见后文的伯努利过程和泊松过程,这里简单给出推导:

考虑二项随机变量的分布列,其相应的参数为np,其中np0,即进行非常多次的实验,实验成功的概率很小。令λ=np,有:

pX(k)=(nk)pk(1p)1k=n(n1)...(nk+1)k!λknk(1λn)nk=(nnn1n...nk+1n)λkk!(1λn)n(1λn)k

n时,利用重要极限(1λn)n=eλ,上式等于1λkk!1eλ。故泊松随机变量的分布列为pX(k)=eλλkk!,可以取巧利用二项分布,得到其期望为E[X]=np=λ,方差var(X)=np(1p)=λλ2n=λ

指数随机变量

考虑几何随机变量的连续情形,即第一次得到正面所需的时间长度,将得到指数分布的概率密度:

f(t)=λeλt

其期望为1/λ,方差为1/λ2。更多的讨论见后文泊松过程。

条件分布

根据分割样本空间的公式:P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+...有:

pX(x)=P(A1)pX|A1(x)+P(A2)pX|A2(x)+...xxpX(X)=x[P(A1)px|A1(x)+P(A2)pX|A2(x)+...]=xP(A1)px|A1(x)+xP(A2)px|A2(x)+...=P(A1)E[X|A1]+P(A2)E[X|A2]+...E[X]=P(A1)E[X|A1]+P(A2)E[X|A2]+...

一个例子,抛掷公平硬币,正面向上的概率为p。问为获得正面向上,抛掷次数的数学期望是多少?

E[X]=P(X=1)E[X|X=1]+P(X>1)E[X|X>1]=p1+(1p)(E[X1|X1>0]+1)=p+(1p)(E[X]+1)

可解出E[X]=1p。假设p=12,说明我们想得到正面平均需抛掷两次,和现实生活中的经验是一致的。上式对E[X|X>1]E[X]的变化可以有多种理解,纯数学的方法是应用E[X]的性质,更通俗的解释是认识到每次抛掷硬币是独立事件,之前抛掷的结果不影响这一次抛掷的概率还是p,因此E[X|X>1]等价于我们已经浪费了一次抛掷次数,然后从零开始。

联合分布

联合分布pX,Y=P(X=x,Y=y),(不要被这个记号迷惑,它更准确的写法是P({X=x}{Y=y}),写成前者只是为了简洁),有如下性质:

  1. xypX,Y(x,y)=1
  2. pX(x)=ypX,Y(x,y)(边缘分布列,y取遍Y中所有不同的值);
  3. pX|Y=P(X=x|Y=y)=pX,Y(x,y)pY(y)
  4. xpX|Y(x|y)=1
  5. pX,Y(x,y)=pX(x)pY|X(y|x)

应用示例

n个人将自己的帽子放在箱子里,每个人再依次从中不放回地取出一顶帽子,随机变量X表示刚好拿到自己帽子的人数,求X的期望和方差:

这个例子和二项分布有相似之处,但要注意到每次取帽子不再是独立的,前面取走了一顶帽子会影响后面的事件。

考虑随机变量Xi

Xi={1if i selects own hat0otherwise

同样可以注意到X=xXi,第i个人恰好拿到自己的帽子的概率P(Xi=1)=1/n,有E[Xi]=1/n,故E[X]=1

由于Xi之间并不是相互独立的,例如X1X9为1会告诉我们X10必定为1。计算var(X)不能用xvar(Xi)。 但是思路上依然会利用var(X)=E[X2](E[X])2这个式子,并且设法将X2表示为更简单的随机变量的组合

var(X)=E[X2](E[X])2=E[X2]1X2=(iXi)2=iXi2+i,j,ijXiXj

依然注意有Xi2=Xi,有E[Xi2]=E[Xi]=1/n。而P(X1X2=1)=P(X1=1)P(X2=1|X1=1)=1n1n1=E[XiXj](ij)X1X2=1意味着两人都拿到了自己的帽子,因为只有1乘1得1,其他的情况都是0。前者拿到自己的帽子的概率是1n,后者变为1n1

E[X2]=n1n+(n2n)1n1n1=2XiXj展开项有n2n个),最终得到var(X)=21=1

独立性

  1. (随机变量与事件的独立性)随机变量X独立于事件A是说P(X=x and A)=P(X=x)P(A)=pX(x)P(A)对一切x均成立。和条件概率类似(把X=x看成B),有P(X=x and A)=pX|A(x)P(A)。如果P(A)>0,也等价于说pX|A(x)=pX(x)对一切x成立,如果P(A)=0前者无定义。

  2. (随机变量与随机变量的独立性)随机变量之间的独立性和随机变量与事件之间的独立性基本一致。两个随机变量被称为相互独立的随机变量,要求它们满足pX,Y(x,y)=pX(x)pY(y)对一切xy都成立。或者说pX|Y(x)=pX(x)对一切x和满足pY(y)>0y成立。

  3. (条件独立)和条件概率类似,进一步可在给定事件A(要求P(A)>0)的情况下定义两个随机变量的独立性。这时候所有事件的概率都需要换算成A的条件概率。例如我们称随机变量XY在给定A的条件下是独立的,要求它们满足:P(X=x,Y=y|A)=P(X=x|A)P(Y=y|A)对一切xy都成立。或者等价地说pX|Y,A(x|y)=pX|A(x)对一切x和满足pY(y)>0y都成立。

独立随机变量的期望和方差

若X和Y相互独立:

  1. E[XY]=E[X]E[Y]。证明:

    E[XY]=xyxypX,Y(x,y)=xyxpX(x)ypY(y)=E[X]E[Y]
  2. E[g(X)h(Y)]=E[g(X)]E[h(y)]

  3. var(X+Y)=var(X)+var(Y)。证明(利用随机变量平移方差不变,而期望的线性组合对随机变量没有独立性要求。令X^=XE[X]Y^=YE[Y],显然有E[X^]=E[Y^]=0E[X^+Y^]=0):

var(X+Y)=var(X^+Y^)=E[(X^+Y^E[X^+Y^])2]=E[(X^+Y^)2]=E[X^2+2X^Y^+Y^2]=E[X^2]+E[Y^2]=var(X^)+var(Y^)=var(X)+var(Y)

样本均值的期望和方差

假定任意地选取n个选民,令Xi表示第i个选民的态度:

Xi={1支持0反对

假定X1,... Xn是独立同分布的伯努利随机变量(自由意志),前面算过其均值为p,方差为p(1p)。可以认为p即表示了选民的态度,并将调查得到的平均态度Sn称为样本均值:

Sn=X1+...+Xnn

Sn是关于X1,...Xn的线性函数,有E[Sn]=1ni=1nE(Xi)=pvar(Sn)=1n2i=1nvar(Xi)=p(1p)n

Sn将是对支持率p的一个很好的估计,因为它的期望刚好是p,而估计精度的方差当n增大时越来越小。

这也说明了为什么我们可以通过计算机模拟计算某事件的概率,例如前面的抛硬币,就是在用出现正面的次数比上n去逼近出现正面的概率p

连续型随机变量

连续型随机变量通常用它的密度函数进行刻画,此时P(aXb)=abfX(x)dxfX(x)dx=1

类似地有E[X]=xfX(x)dxE[g(x)]=g(x)fX(x)dxvar(x)=(xE[X])2fX(x)dx

分布函数

我们分别用分布列和概率密度函数来刻画随机变量的取值规律,现在可以用一个统一的数学工具分布函数来刻画随机变量的取值规律。随机变量X的分布函数定义为对每一个xFX(x)=P(Xx)。在X是离散或连续的情况下:

FX(x)=P(Xx)={kxPX(k)X是离散的xfX(t)dtX是连续的

正态分布

一个基础的连续型随机变量是正态分布。标准正态分布N(0,1)fX(x)=12πex2/2。其E[X]=0var(X)=1N(0,1)的概率密度函数可以从如下左图理解,12π不过是让概率密度积分为1所乘上的一个数。

N(0,1)做线性变换,可以得到更一般的正态分布。如果将x乘上一个系数,则图像变得更宽或更窄;如果将x加上或减去一个数,则图像被平移。习惯上将更一般的正态分布定义为N(μ,σ2)μ即是x所加上的数,σ即是x所乘的系数的变体,有fX(x)=12πe(xμ)2/2σ2σ越小,相应的x乘上的系数越大,此时图像越窄。

如果直接对正态分布密度函数求积分是积不出来的,但一般的正态分布都可以转化(线性变换)为标准正态分布概率的计算,而标准正态分布我们有表格。如果XN(μ,σ2),有XμσN(0,1)。假如要计算XN(2,16)X3的概率,有P(X3)=P(X24324),等价于计算N(0,1)X14的概率。

条件

在解释随机变量X的概率密度函数的时候可以把fX(x)理解为X落入x附近单位长度δ的概率P([x,x+δ])=xx+δfX(x)dxfX(x)δ。在随机变量对随机变量的条件场景,类似地有P(xXx+δ|Y=y)fX|Y(x|y)δ。但教授强调了这里其实应该是P(xXx+δ|Yy)fX|Y(x|y)δ。因为Y=y时概率为0,该条件概率是未定义的,这里我们实际想表达的是Y的取值非常接近y(邻域)。

下为教授评价重要性胜过本章任何内容的一图,图中右上为联合概率密度,中间的图像表示slice之后的一个切面为固定x的边缘密度,但这个说法不准确(因为违背归一性),还需要比上x的概率(在给定x的空间中),得到最下面的图:

随机变量的深入内容

随机变量函数的PDF

一个均匀分布的例子,X是均匀分布,Y=aX+b,可以得出fY(y)=1|a|fX(yba)。从图像上理解,aXX的图像水平拉伸或收缩了,相应的密度变得稀疏或者稠密,因此有fX(xa):为了维持归一性,需要将对应的值也除以a倍;而加上b不过将图像水平平移了,不改变图像的形状。

用更通用的两步走策略,首先将y空间映射到x空间,求出FY(y)=P(Yy)=P(aX+by),即P(Xyba)(a>0),这是一个关于y的函数,第二步对y求导即得y的密度函数,有fY(y)=1afX(yba)a<0的情况同理。由此我们知道一个均匀分布线性变换之后依然是均匀分布。

单调函数

严格单调函数的一个重要性质是“可逆”,也就是说,存在函数h,称为g的逆,使得对任意的xI,有y=g(x)<=>x=h(y),且h是可微的,则Y再支撑集{y|fY(y)>0}内的概率密度函数是:

fY(y)=fX(h(y))|dhdy(y)|

假设g是严格递增函数,有FY(y)=P(g(X)y)=P(Xh(y))=FX(h(y)),对该式微分即得结果;单调递减的情形同理。

卷积

XY是两个独立的随机变量,考虑它们的和Z=X+Y的分布:

{pZ(z)=xpX(x)pY(zx)离散fZ(z)=+fX(x)fY(zx)dx连续

协方差和相关性

两个随机变量XY的协方差记为cov(X,Y),其定义如下:

cov(X,Y)=E[(XE[X])(YE(Y))]

cov(X,Y)=0时,我们说XY是不相关的。和方差类似,该式稍作计算可得cov(X,Y)=E[XY]E[X]E[Y]

协方差的一些性质:

  1. cov(X,X)=var(X)
  2. cov(X,aX+b)=acov(X,Y);
  3. cov(X,Y+Z)=cov(X,Y)+cov(X,Z)

比较值得注意的是如下性质:如果随机变量XY相互独立,有E[XY]=E[X]E[Y],则此时XY也不相关。但是逆命题不一定成立。一个更一般的结论是,如果XY满足E[X|Y=y]=E[X]对任意的y都成立,则有E[XY]=yypY(y)E[X|Y=y]=E[X]yypY(y)=E[X]E[Y]。因此只要满足这个条件XY就是不相关的。

相关系数

和标准差类似,两个方差非0的随机变量XY的相关系数ρ(X,Y)定义如下:

ρ(X,Y)=cov(X,Y)var(X)var(Y)

可以证明ρ的取值在11之间,并且ρ11等价于YE[Y]=c(XE[X])

随机变量和的方差

协方差使得我们可以计算多个随机变量(不要求独立)之和的方差。特别地,设随机变量X1,X2,...,Xn均具有有限的方差,则:

var(X1+X2)=var(X1)+var(X2)+2cov(X1,X2)

证明如下,简记Xi~=XiE[Xi]

var(i=1nXi)=E[(i=1nXi~)2]=E[i=1nj=1nXi~Xj~]=i=1nj=1nE[Xi~Xj~]=i=1nE[Xi~2]+(i,j)|ijE[Xi~Xj~]=i=1nvar(Xi)+(i,j)|ijcov(Xi,Xj)

再论条件期望和方差

重期望定理

一个随机变量X的条件期望E[X|Y=y]的值,依赖于y的值。因为E[X|Y=y]的函数,所以E[X|Y]Y的函数,因此也成为一个随机变量,它的分布依赖于Y的分布。例如令Y是随机抛掷不均匀硬币正面朝上的概率,Y[0,1]上的分布,现在假定Y的分布已知,定义X为正面朝上的总次数,则对于任意的y[0,1],我们有E[X|Y=y]=ny,所以E[X|Y]是随机变量nY

既然E[X|Y]是一个随机变量,那么就应该有自己的期望E[E[X|Y]]。使用期望法则,可得:

E[E[X|Y]]={yE[X|Y=y]pY(y)Y离散E[X|Y=y]fY(y)dyY连续

右边的两个式子前面已经很熟悉了,利用全期望定理,它们都等于E[X]。这样我们就可以得出如下结论:不管期望Y是离散的、连续的、或混合的,只要随机变量X具有有限的期望E[X],下面的法则成立:

E[E[X|Y]]=E[X]

条件方差

首先,回忆:

var(X)=E[X2](E[X])2

因此类似地有:

var(X|Y)=E[X2|Y](E[X|Y])2

由于var(X|Y)依赖于Y,它也是一个随机变量,因此就可以计算它的期望,并利用数学期望的线性性质:

E[var(X|Y)]=E[E[X2|Y]]E[(E[X|Y])2]=E[X2]E[(E[X|Y])2]

上面第二个等号应用了一次重期望定理。再由:

var(E[X|Y])=E[(E[X|Y])2](E[E[X|Y]])2=E[(E[X|Y])2](E[X])2

这里也应用了一次重期望定理。最后将两边相加可得:

E[var(X|Y)]+var(E[X|Y])=E[X2](E[X])2=var(X)

这个公式说明样本总体的方差等于“average variability within sections + variability between sections“。

伯努利过程和泊松过程

伯努利过程

理解伯努利过程的“无记忆性”可以解决一些困难问题。已知伯努利过程首次成功时的试验总次数T服从几何分布,假设已经进行了n次实验没有成功,那么对直到出现成功结果的剩下实验次数Tn可以得到什么结论呢?根据“重新开始”的性质,可知从现在开始到首次成功依然服从几何分布:

P(Tn=k|T>n)=(1p)k1p=P(T=k), k=1, 2, ...

如果将时间看成相互独立的连续小区间,称为“瞬间”,每个瞬间只包含一次独立的伯努利实验,每个区间只有两个状态:“成功”或“失败”。这和我们进行离散的若干次伯努利实验是一样的。举例来说,假定一个人每天都买一张彩票,单次中奖与否服从概率p的伯努利分布,那么他首次中奖的天数就是一个概率为p的几何分布,这里的每天就是划分的时间区间。现在考察首个连续中奖天数段的分布,令天数为L,则L是一个随机变量。

一个想法是考虑区间L+1,即若干次连续1之后紧跟着一个0,看起来它和几何分布的情形类似,但是L+1并不服从几何分布。因为如果L+1是几何分布,意味着我们明确知道要从L的开头那个瞬间开始观测,这隐含着我们确信将会观测到一个1的信息,则下一个瞬间不是独立的伯努利实验。

可行的方法是,观测到一个1之后,考察直到出现一个0之间的区间长度L,根据重新开始的特性,L是概率1p的几何分布,随后注意到L的长度与L相同,L也是相同的几何分布(???,书上的解释好一点,不管是第几个连续中奖区间,和第一个连续中奖区间都是一样的,而第一个连续中奖区间和第一个未中奖天数是等价的)。相同的结论可以应用于第任意i个中奖区间。

第二个话题是第k次成功的时间Yk,则Yk=T1+T2+...+Tk,其中Ti是从i1次到达到下一次到达的时间间隔数,则Ti都服从几何分布。下面求Yk的分布列,pYk(t)=P(Yk=t)=P(在区间[0, t-1]内有k-1 次成功,在t区间成功),显然这两个事件是独立的:

pYk(t)=P(Yk=t)=(n1k1)pk1(1p)tkp=(n1k1)pk(1p)tk

阶数为k的帕斯卡分布。当k=1时,这是一个几何分布。

第三个话题是伯努利过程的分裂和合并。假如每有一次成功时,我们以概率q选择保留或抛弃,则保留下来的过程依然是伯努利过程,其概率为pq。若将两个独立的伯努利过程(参数分别为pq)的到达合并,新过程的到达为两个中的任意一个到达,则新过程也是伯努利过程,且概率为1(1p)(1q)=p+qpq

泊松过程

时间是连续的,有时我们只有将时间段划分得足够小才能让它仅容纳下一次实验。但多少才算小?人们更喜欢考虑这个时间段的长度趋于零的情况,即连续型时间模型。我们不在每个小的时间区间(小到一个区间内只允许一次事件的发生与否)进行观察,而改为去记下每次事件发生的时间点,然后考察这些点落在一个大的时间范围里的概率,则落在不相交区间内的事件次数是独立的。令P(k,τ)表示落在间隔τ之间有k个事件的可能性,通常会固定τ的长度讨论问题。

对于足够小的时间间隔:

P(k,δ){1λδif k = 0λδif k = 10if k > 1

如果考察“区间[0,δ]之间到达次数“的数学期望,易知为λδ,故λ代表了单位时间内事件发生次数的期望(arrive rate,到达率、强度),越大的λ意味着在单位时间内有更大的可能性发生事件。注意这里的“”号,它代表这个结果是当δ足够小时的一种近似,式子中省略了δ的二阶无穷小,一个准确的表达是limδ0P(1,δ)δ=λ

对比伯努利过程,这里的δ就是我们划分出来的很小的一个时间区间,τ间隔内区间数量n=τδ,结合小区间内的概率p=λδ,,即λτ=np,将之作为对伯努利过程的近似,可以得到P(k,τ)=(λτ)keλτk!,其中k=0,1,...

Yk表示第k次到达的时间点,现在求概率密度,由fYk(y)δ=P(tYkt+δ)=P(k-1 arrive in [0, t])λδ,得fYk(y)=λkyk1eλy(k1)!,即阶数为k的埃尔朗分布。当k=1时,fY1(y)=λeλy是一个指数分布,可以看成是几何分布的连续情形。其中的“无记忆性”体现在,下一次到达的时间点与过去独立。

第二个话题是泊松过程的合并和分裂,想象一个红灯和一个绿灯相互独立地闪烁,红灯的“arrive rate”是λ1,绿灯是λ2,考察”有灯闪烁“这一过程,忽略掉δ的二阶项,则合并过程的“arrive rate”近似为(λ1+λ2)δ。泊松过程的分裂和之前的讨论也类似,如果一个事件到来后我们以p1p的概率将其分裂为两个过程,则p这一边的“arrive rate”变为λp

第三个话题是随机插入的悖论。泊松过程的到达时间序列将时间轴分割成一串相邻的时间间隔序列,每个时间段开始于一个到达,结束于下一个到达。已经证得每个相邻时间段的长度(称为相邻到达时间)是独立的、参数为λ的服从指数分布的随机变量。如果有一个人,在任意的一个时间点t,到达公共汽车站,并记录下前次汽车到达与下一班汽车到达的时间间隔。通常称这个人的到达为”随机插入“,假设t足够大使得之前一定已有汽车到站发生,如果考察这个人所计量出来的相邻时间段长度L,人们会错误地认为L是一个典型的服从指数分布的相邻到达时间,但这是错误的。实际上,从这个人在t时刻到站到下一班汽车到站,是一个指数分布,而从这个人到站到上一班汽车到站(倒着看泊松过程,依然是一个泊松过程),也是一个指数分布,因此L是两个参数为λ的独立指数分布随机变量之和,即阶数为2的埃尔朗分布,其均值为2/λ

这里的关键是,一个观测者到达的时刻更可能落在一个较大而不是较小(汽车在站台)的时间间隔区间里,因此,在这种情况下,观测者观测的平均长度将变长。类似的例子,假如公共汽车以等可能的概率以5分钟或10分钟到达,而我们“随机插入”,问从我们到站到下一班汽车到站的期望是多少?显然公共汽车的平均到达时间E[T]=7.5。而如果我们随机地出现,我们出现在10分钟区间里的概率是5分钟区间里的两倍,因此所处相邻时间段长度的期望为2310+135>7.5

这告诉我们确定“随机”的含义非常重要,假如要调查城市里公共汽车的拥挤情况,一种选择是随机抽取公共汽车进行调查,另一种选择是随机抽取乘客进行调查。显然后者的结果偏大,因为更有可能选中乘坐拥挤汽车的人。