随机变量与概率分布

可测函数

f:RRf : \mathbb{R} \to \mathbb{R}。若对任意 BB(R)B \in \mathcal{B}(\mathbb{R}),都有

f1(B)={xR:f(x)B}B(R),f^{-1}(B)=\{x \in \mathbb{R}: f(x)\in B\}\in \mathcal{B}(\mathbb{R}),

则称 ff 为 Borel 可测函数,简称可测函数。

  • 性质
    • f1(B(R))={f1(B):BB(R)}f^{-1}(\mathcal{B}(\mathbb{R}))=\{f^{-1}(B): B\in \mathcal{B}(\mathbb{R})\}R\mathbb{R} 上的一个 σ\sigma 代数。
    • C\mathcal{C} 满足 σ(C)=B(R)\sigma(\mathcal{C})=\mathcal{B}(\mathbb{R}),且对任意 BCB \in \mathcal{C} 都有 f1(B)B(R)f^{-1}(B)\in \mathcal{B}(\mathbb{R}),则 ff 为可测函数。
    • f1(B(R))=σ(f1(C))f^{-1}(\mathcal{B}(\mathbb{R}))=\sigma \bigl(f^{-1}(\mathcal{C})\bigr)
  • 常用判别
    • 只需验证一族生成 B(R)\mathcal{B}(\mathbb{R}) 的集合的原像是 Borel 集即可。
    • 例如只需对任意 xRx \in \mathbb{R} 验证 f1((,x])B(R)f^{-1}((-\infty, x])\in \mathcal{B}(\mathbb{R})
  • 例子
    • R\mathbb{R} 上的连续函数、分段连续函数、单调有界函数等均为可测函数。

随机变量

(Ω,F,P)(\Omega, \mathcal{F}, P) 为概率空间,B(R)\mathcal{B}(\mathbb{R}) 表示 R\mathbb{R} 上的 Borel σ\sigma 代数。若函数 ξ:ΩR\xi : \Omega \to \mathbb{R} 满足对任意 BB(R)B \in \mathcal{B}(\mathbb{R}),都有

ξ1(B)={ωΩ:ξ(ω)B}F,\xi^{-1}(B)=\{\omega \in \Omega : \xi(\omega)\in B\}\in \mathcal{F},

则称 ξ\xi 为定义在 (Ω,F,P)(\Omega, \mathcal{F}, P) 上的随机变量。等价地说,随机变量就是从可测空间 (Ω,F)(\Omega, \mathcal{F}) 到可测空间 (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})) 的可测函数,即 ξ\xi(F,B(R))(\mathcal{F}, \mathcal{B}(\mathbb{R}))-可测的。

概率分布

(Ω,F,P)(\Omega, \mathcal{F}, P) 为概率空间,ξ\xi 为定义在其上的随机变量。定义在可测空间 (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})) 上的集合函数 PξP_{\xi}

Pξ(B)=P(ξB)=P(ξ1(B)),BB(R),P_{\xi}(B)=P(\xi \in B)=P\bigl(\xi^{-1}(B)\bigr), \qquad B \in \mathcal{B}(\mathbb{R}),

称为随机变量 ξ\xi 的概率分布,简称 ξ\xi 的分布。等价地,ξ\xi 的分布就是概率测度 PP 在映射 ξ\xi 下的像测度,即

Pξ=Pξ1.P_{\xi}=P \circ \xi^{-1}.

分布函数与密度函数

分布函数

(Ω,F,P)(\Omega, \mathcal{F}, P) 为概率空间,ξ\xi 为定义在其上的随机变量。称函数 F:RRF : \mathbb{R} \to \mathbb{R},其中

F(x)=P(ξx),xR,F(x)=P(\xi \le x), \qquad x \in \mathbb{R},

为随机变量 ξ\xi 的分布函数。等价地,对任意 xRx \in \mathbb{R},有

F(x)=Pξ1((,x]).F(x)=P \circ \xi^{-1}((-\infty, x]).

分布函数的性质

F(x)=P(Xx)F(x)=P(X \le x) 为随机变量 XX 的分布函数,则

  • FF 单调不减,即当 x<yx<y 时,F(x)F(y)F(x)\le F(y)
  • 0F(x)10 \le F(x) \le 1
  • limxF(x)=0\lim\limits_{x\to -\infty} F(x)=0
  • limx+F(x)=1\lim\limits_{x\to +\infty} F(x)=1
  • FF 右连续,即对任意 xRx \in \mathbb{R},有
F(x+0)=limtxF(t)=F(x)F(x+0)=\lim_{t\downarrow x}F(t)=F(x)

并且对任意 xRx \in \mathbb{R},左极限 F(x0)F(x-0) 存在。

常用关系式

P(Xx)=F(x),P(X<x)=F(x0)P(X=x)=F(x)F(x0)P(X>x)=1F(x),P(Xx)=1F(x0)\begin{align} &P(X \le x)=F(x), \quad P(X < x)=F(x-0)\\ & P(X=x)=F(x)-F(x-0)\\ & P(X > x)=1-F(x), \quad P(X \ge x)=1-F(x-0) \end{align}

对任意 a<ba<b,有

P(a<Xb)=F(b)F(a)P(a<X\le b)=F(b)-F(a)

密度函数

设随机变量 XX 的分布函数为 F(x)F(x)。若存在非负可测函数 p:R[0,+)p : \mathbb{R} \to [0,+\infty),使得对任意 xRx \in \mathbb{R},都有

F(x)=xp(t)dt,F(x)=\int_{-\infty}^{x} p(t)\,dt,

则称 XX 为连续型随机变量,称函数 p(x)p(x)XX 的概率密度函数,简称密度函数。

等价地,对任意 a<ba<b,有

P(a<Xb)=abp(x)dx.P(a<X\le b)=\int_a^b p(x)\,dx.

密度函数的性质

p(x)p(x) 为随机变量 XX 的密度函数,F(x)=xp(t)dtF(x)=\int_{-\infty}^{x} p(t)\,dt 为其分布函数,则

  • p(x)0p(x)\ge 0
  • +p(x)dx=1\int_{-\infty}^{+\infty} p(x)\,dx=1
  • 对任意 a<ba<b,有
P(a<Xb)=F(b)F(a)=abp(x)dxP(a<X\le b)=F(b)-F(a)=\int_a^b p(x)\,dx
  • 对任意 BB(R)B \in \mathcal{B}(\mathbb{R}),有
P(XB)=Bp(x)dxP(X\in B)=\int_B p(x)\,dx
  • pp 在点 xx 处连续,则
F(x)=p(x)F'(x)=p(x)
  • 对任意 aRa \in \mathbb{R},有
P(X=a)=0P(X=a)=0

分布函数的分解

任一分布函数 FF 都可分解为

F(x)=Fd(x)+Fac(x)+Fs(x),xR,F(x)=F_d(x)+F_{ac}(x)+F_s(x), \qquad x \in \mathbb{R},

其中 Fd,Fac,FsF_d,F_{ac},F_s 都是分布函数意义下的非降右连续函数,且分别对应离散部分、绝对连续部分和奇异部分。

离散部分 FdF_d 可表示为至多可数个跳跃点贡献之和,即存在至多可数点集 {xk}\{x_k\} 及常数 pk>0p_k>0,满足 kpk1\sum_k p_k \le 1,使得

Fd(x)=xkxpk.F_d(x)=\sum_{x_k\le x} p_k.

其中

pk=F(xk)F(xk0)=P(X=xk).p_k=F(x_k)-F(x_k-0)=P(X=x_k).

绝对连续部分 FacF_{ac} 满足存在可积函数 p0p \ge 0,使得

Fac(x)=xp(t)dt.F_{ac}(x)=\int_{-\infty}^{x} p(t)\,dt.

奇异部分 FsF_s 连续且几乎处处导数为 00,但仍可在某些 Lebesgue 零测集上增长。

若随机变量 XX 的分布函数为 FF,则相应分布可唯一分解为离散分布、绝对连续分布与奇异分布之和;特别地,若 Fs0F_s\equiv 0,则称该分布由离散部分与绝对连续部分组成。

常见特殊情形如下。

  • F=FdF=F_d,则 XX 为离散型随机变量。
  • F=FacF=F_{ac},则 XX 为连续型随机变量,且存在密度函数。
  • FF 连续但不存在密度,且又不是常数,则可能含有奇异部分。

常见离散分布

伯努利分布

设随机变量 XX 只取两个值 0,10,1。若存在 p[0,1]p \in [0,1],使得

P(X=1)=p,P(X=0)=1p,P(X=1)=p,\qquad P(X=0)=1-p,

则称 XX 服从参数为 pp 的伯努利分布,记作

XBernoulli(p).X \sim \mathrm{Bernoulli}(p).

二项分布

nNn \in \mathbb{N}p[0,1]p \in [0,1]。若随机变量 XX 的取值为 0,1,,n0,1,\dots,n,且对任意 k=0,1,,nk=0,1,\dots,n,有

P(X=k)=(nk)pk(1p)nk,P(X=k)=\binom{n}{k} p^k (1-p)^{n-k},

则称 XX 服从参数为 n,pn,p 的二项分布,记作 XBin(n,p)X \sim \mathrm{Bin}(n,p)

二项分布可看作 nn 重独立伯努利试验中成功次数的分布。

几何分布

p(0,1)p \in (0,1)。若随机变量 XX 的取值为 1,2,1,2,\dots,且对任意 k=1,2,k=1,2,\dots,有

P(X=k)=(1p)k1p,P(X=k)=(1-p)^{k-1}p,

则称 XX 服从参数为 pp 的几何分布,记作 XGeo(p)X \sim \mathrm{Geo}(p)

几何分布可看作独立重复伯努利试验中第一次成功出现的试验次数的分布。

帕斯卡分布

rN+r \in \mathbb{N}_{+}p(0,1)p \in (0,1)。若随机变量 XX 的取值为 r,r+1,r,r+1,\dots,且对任意 k=r,r+1,k=r,r+1,\dots,有

P(X=k)=(k1r1)pr(1p)kr,P(X=k)=\binom{k-1}{r-1} p^r (1-p)^{k-r},

则称 XX 服从参数为 r,pr,p 的帕斯卡分布,记作 XPascal(r,p)X \sim \mathrm{Pascal}(r,p)

帕斯卡分布可看作独立重复伯努利试验中第 rr 次成功出现时所对应的试验次数的分布。

泊松分布

λ>0\lambda > 0。若随机变量 XX 的取值为 0,1,2,0,1,2,\dots,且对任意 k=0,1,2,k=0,1,2,\dots,有

P(X=k)=λkk!eλ,P(X=k)=\frac{\lambda^k}{k!} e^{-\lambda},

则称 XX 服从参数为 λ\lambda 的泊松分布,记作 XPoisson(λ)X \sim \mathrm{Poisson}(\lambda)

泊松分布常用来描述在一定时间间隔、区域或体积内某类随机事件发生的次数分布。

常见连续分布

均匀分布

a<ba<b。若随机变量 XX 的密度函数为

p(x)={1ba,a<x<b,0,其他.p(x)= \begin{cases} \frac{1}{b-a}, & a<x<b, \\ 0, & \text{其他}. \end{cases}

则称 XX 服从区间 (a,b)(a,b) 上的均匀分布,记作 XU(a,b)X \sim U(a,b)

其分布函数为

F(x)={0,xa,xaba,a<x<b,1,xb.F(x)= \begin{cases} 0, & x\le a, \\ \frac{x-a}{b-a}, & a<x<b, \\ 1, & x\ge b. \end{cases}

均匀分布刻画随机变量在区间 (a,b)(a,b) 内各等长子区间上取值的概率只与区间长度有关,而与区间位置无关。

正态分布

μR\mu \in \mathbb{R}σ>0\sigma >0。若随机变量 XX 的密度函数为

p(x)=12πσexp{(xμ)22σ2},xR,p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}, \qquad x\in\mathbb{R},

则称 XX 服从参数为 μ,σ2\mu,\sigma^2 的正态分布,记作 XN(μ,σ2)X \sim N(\mu,\sigma^2)

其分布函数为

F(x)=x12πσexp{(tμ)22σ2}dt.F(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(t-\mu)^2}{2\sigma^2}\right\}\,dt.

μ=0,σ=1\mu=0,\sigma=1 时,称 XX 服从标准正态分布,记作 XN(0,1)X \sim N(0,1)。其密度函数与分布函数分别记为

φ(x)=12πex2/2,\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}, Φ(x)=x12πet2/2dt.\Phi(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}\,dt.

XN(μ,σ2)X \sim N(\mu,\sigma^2),则其密度函数关于直线 x=μx=\mu 对称,即对任意 xRx \in \mathbb{R},有

p(μ+x)=p(μx).p(\mu+x)=p(\mu-x).

其分布函数满足

F(μ+x)+F(μx)=1,xR.F(\mu+x)+F(\mu-x)=1, \qquad x \in \mathbb{R}.

特别地,标准正态分布的分布函数 Φ\Phi 满足

Φ(x)=1Φ(x),xR.\Phi(-x)=1-\Phi(x), \qquad x \in \mathbb{R}.

XN(μ,σ2)X \sim N(\mu,\sigma^2),则

XμσN(0,1).\frac{X-\mu}{\sigma} \sim N(0,1).

反之,若 ZN(0,1)Z \sim N(0,1),则

μ+σZN(μ,σ2).\mu+\sigma Z \sim N(\mu,\sigma^2).

因此对任意 xRx \in \mathbb{R},有

P(Xx)=Φ(xμσ).P(X \le x)=\Phi\left(\frac{x-\mu}{\sigma}\right).

正态分布的密度函数在 x=μx=\mu 处取得最大值;当 x<μx<\mu 时单调增加,当 x>μx>\mu 时单调减少。

指数分布

λ>0\lambda >0。若随机变量 XX 的密度函数为

p(x)={λeλx,x>0,0,x0,p(x)= \begin{cases} \lambda e^{-\lambda x}, & x>0, \\ 0, & x\le 0, \end{cases}

则称 XX 服从参数为 λ\lambda 的指数分布,记作 XExp(λ)X \sim \mathrm{Exp}(\lambda)

其分布函数为

F(x)={1eλx,x>0,0,x0.F(x)= \begin{cases} 1-e^{-\lambda x}, & x>0, \\ 0, & x\le 0. \end{cases}

指数分布常用于描述某一随机事件的等待时间或寿命长度。

Gamma 分布

α>0\alpha >0λ>0\lambda >0。若随机变量 XX 的密度函数为

p(x)={λαΓ(α)xα1eλx,x>0,0,x0,p(x)= \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x>0, \\ 0, & x\le 0, \end{cases}

其中

Γ(α)=0+xα1exdx,\Gamma(\alpha)=\int_0^{+\infty} x^{\alpha-1} e^{-x}\,dx,

则称 XX 服从参数为 α,λ\alpha,\lambda 的 Gamma 分布,记作 XΓ(α,λ)X \sim \Gamma(\alpha,\lambda)

其分布函数为

F(x)={0xλαΓ(α)tα1eλtdt,x>0,0,x0.F(x)= \begin{cases} \int_0^x \frac{\lambda^\alpha}{\Gamma(\alpha)} t^{\alpha-1} e^{-\lambda t}\,dt, & x>0, \\ 0, & x\le 0. \end{cases}

α=nN+\alpha = n \in \mathbb{N}_{+} 时,Gamma 分布称为 Erlang 分布,此时

Γ(n)=(n1)!.\Gamma(n)=(n-1)!.

特别地,当 α=1\alpha=1 时,Gamma 分布退化为参数为 λ\lambda 的指数分布。

Beta 分布

α>0\alpha >0β>0\beta >0。若随机变量 XX 的密度函数为

p(x)={1B(α,β)xα1(1x)β1,0<x<1,0,其他,p(x)= \begin{cases} \frac{1}{B(\alpha,\beta)} x^{\alpha-1}(1-x)^{\beta-1}, & 0<x<1, \\ 0, & \text{其他}, \end{cases}

其中

B(α,β)=01xα1(1x)β1dx,B(\alpha,\beta)=\int_0^1 x^{\alpha-1}(1-x)^{\beta-1}\,dx,

则称 XX 服从参数为 α,β\alpha,\beta 的 Beta 分布,记作 XBeta(α,β)X \sim \mathrm{Beta}(\alpha,\beta)

其分布函数为

F(x)={0,x0,1B(α,β)0xtα1(1t)β1dt,0<x<1,1,x1.F(x)= \begin{cases} 0, & x\le 0, \\ \frac{1}{B(\alpha,\beta)}\int_0^x t^{\alpha-1}(1-t)^{\beta-1}\,dt, & 0<x<1, \\ 1, & x\ge 1. \end{cases}

Beta 分布定义在区间 (0,1)(0,1) 上,常用于描述概率、比例或占比这类取值限制在 [0,1][0,1] 内的随机变量。

特别地,当 α=β=1\alpha=\beta=1 时,Beta 分布退化为区间 (0,1)(0,1) 上的均匀分布。

分布之间的关系

泊松分布与二项分布

在独立试验中,设事件 AA 在每次试验中发生的概率为 pnp_n,它可随试验总数 nn 变化。若

npnλ,n,n p_n \to \lambda, \qquad n \to \infty,

其中 λ>0\lambda > 0,则对任意固定的 k=0,1,2,k=0,1,2,\dots,有

(nk)pnk(1pn)nkλkk!eλ,n.\binom{n}{k} p_n^k (1-p_n)^{n-k} \to \frac{\lambda^k}{k!} e^{-\lambda}, \qquad n \to \infty.

即当 nn 很大、pnp_n 很小且 npnλn p_n \approx \lambda 时,二项分布 Bin(n,pn)\mathrm{Bin}(n,p_n) 可近似为参数为 λ\lambda 的泊松分布。

其直观意义是,考虑 nn 个事件,第 ii 个事件发生的概率为 pip_ii=1,2,,ni=1,2,\dots,n。若各个 pip_i 都很小,且这些事件相互独立,或至多弱相关,则事件发生总次数近似服从参数为

p1+p2++pnp_1+p_2+\cdots+p_n

的泊松分布。

应用中常用近似形式为,当 nn 较大且 pp 很小时,

(nk)pk(1p)nk(np)kk!enp.\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{(np)^k}{k!} e^{-np}.

伯努利过程与泊松过程

伯努利过程是离散时间的计数过程,泊松过程是连续时间的计数过程,二者都用于描述随机事件的发生规律。

{Xn}n1\{X_n\}_{n\ge 1} 为独立同分布的 Bernoulli 随机变量,且

P(Xn=1)=p,P(Xn=0)=1p.P(X_n=1)=p,\qquad P(X_n=0)=1-p.

Sn=k=1nXk,n1,S_n=\sum_{k=1}^n X_k,\qquad n\ge 1,

则称 {Sn}n0\{S_n\}_{n\ge 0} 为参数为 pp 的伯努利过程,其中 SnS_n 表示前 nn 次试验中事件发生的总次数。对任意 nn,有

SnBin(n,p).S_n \sim \mathrm{Bin}(n,p).

泊松过程 {N(t),t0}\{N(t), t\ge 0\} 则满足

  • N(0)=0N(0)=0
  • 具有独立增量
  • 对任意 0s<t0\le s<t,增量 N(t)N(s)N(t)-N(s) 服从参数为 λ(ts)\lambda (t-s) 的泊松分布,即
N(t)N(s)Poisson(λ(ts))N(t)-N(s)\sim \mathrm{Poisson}(\lambda (t-s))

其中 λ>0\lambda >0 为过程强度。

因此,伯努利过程描述每个离散时刻事件是否发生,泊松过程描述连续时间区间内事件发生了多少次。

若从建模条件看,泊松过程通常对应如下背景:在很短时间区间 hh 内,恰好发生一次事件的概率约为 λh+o(h)\lambda h + o(h),在很短时间区间 hh 内发生两次及以上事件的概率为 o(h)o(h),不相交区间内发生次数相互独立,并且事件在等长区间内发生规律相同。

二者的关系在于,泊松过程可看作伯努利过程在时间间隔趋于无穷小极限下得到的连续模型。更具体地,将长度为 tt 的时间区间划分为 nn 个小区间,每个小区间内事件发生的概率取为

pn=λtn,p_n=\lambda \frac{t}{n},

并假设各小区间内事件发生相互独立,则总发生次数服从二项分布

Bin(n,λtn).\mathrm{Bin}\left(n,\lambda \frac{t}{n}\right).

nn\to\infty 时,由泊松定理,

Bin(n,λtn)Poisson(λt).\mathrm{Bin}\left(n,\lambda \frac{t}{n}\right)\Longrightarrow \mathrm{Poisson}(\lambda t).

因此,泊松过程可以看作伯努利过程的连续时间极限模型。

对应地,伯努利过程中第一次成功出现的等待步数服从几何分布,而泊松过程中第一次事件发生的等待时间服从指数分布。这也体现了离散模型与连续模型之间的对应关系。

指数分布与泊松过程

泊松分布描述单位时间区间内随机事件发生的次数,指数分布描述相邻两次事件之间的等待时间。这二者可由同一个泊松过程统一刻画。设 {N(t),t0}\{N(t),t\ge 0\} 为强度为 λ\lambda 的泊松过程,则对任意 t0t\ge 0

N(t)Poisson(λt).N(t)\sim \mathrm{Poisson}(\lambda t).

若记第一次事件发生的等待时间为 XX,则

{X>t}={N(t)=0}.\{X>t\}=\{N(t)=0\}.

因此

P(X>t)=P(N(t)=0)=eλt,P(X>t)=P(N(t)=0)=e^{-\lambda t},

从而

FX(t)=P(Xt)={1eλt,t>0,0,t0,F_X(t)=P(X\le t)= \begin{cases} 1-e^{-\lambda t}, & t>0, \\ 0, & t\le 0, \end{cases}

XExp(λ).X\sim \mathrm{Exp}(\lambda).

更一般地,泊松过程中相邻事件间隔 X1,X2,X_1,X_2,\dots 都服从参数为 λ\lambda 的指数分布;第 rr 次事件发生时刻

Tr=X1++XrT_r=X_1+\cdots+X_r

满足

{Trt}={N(t)r}.\{T_r\le t\}=\{N(t)\ge r\}.

因此,泊松分布给出计数规律,指数分布给出等待时间规律,它们是同一泊松过程的两种等价刻画。

Gamma 分布与泊松过程

{N(t),t0}\{N(t), t\ge 0\} 为强度为 λ>0\lambda >0 的泊松过程,记第 rr 次事件发生时刻为

Tr=inf{t0:N(t)r},rN+.T_r=\inf\{t\ge 0: N(t)\ge r\}, \qquad r \in \mathbb{N}_{+}.

则有

{Trt}={N(t)r},t0.\{T_r\le t\}=\{N(t)\ge r\}, \qquad t\ge 0.

因此

P(Trt)=P(N(t)r)=1k=0r1(λt)kk!eλt,t0.P(T_r\le t)=P(N(t)\ge r)=1-\sum_{k=0}^{r-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}, \qquad t\ge 0.

从而 TrT_r 的密度函数为

fTr(t)={λr(r1)!tr1eλt,t>0,0,t0,f_{T_r}(t)= \begin{cases} \frac{\lambda^r}{(r-1)!} t^{r-1} e^{-\lambda t}, & t>0, \\ 0, & t\le 0, \end{cases}

TrΓ(r,λ).T_r \sim \Gamma(r,\lambda).

也就是说,Gamma 分布描述泊松过程中第 rr 次事件的等待时间分布。

特别地,当 r=1r=1 时,

T1Γ(1,λ)=Exp(λ),T_1 \sim \Gamma(1,\lambda)=\mathrm{Exp}(\lambda),

即指数分布是 Gamma 分布的特例;当 rN+r \in \mathbb{N}_{+} 时,Gamma 分布也称为 Erlang 分布。

Beta 分布与二项分布

Beta 分布与二项分布之间存在自然对应关系。二项分布描述在 nn 次独立 Bernoulli 试验中成功次数的分布,Beta 分布则常用来刻画成功概率参数 pp 在区间 (0,1)(0,1) 上的不确定性。

设在给定参数 p(0,1)p \in (0,1) 时,

P(X=kp)=(nk)pk(1p)nk,k=0,1,,n,P(X=k \mid p)=\binom{n}{k} p^k (1-p)^{n-k}, \qquad k=0,1,\dots,n,

XpBin(n,p).X \mid p \sim \mathrm{Bin}(n,p).

若再设参数 pp 本身服从 Beta 分布

pBeta(α,β),p \sim \mathrm{Beta}(\alpha,\beta),

其密度为

f(p)=1B(α,β)pα1(1p)β1,0<p<1,f(p)=\frac{1}{B(\alpha,\beta)} p^{\alpha-1}(1-p)^{\beta-1}, \qquad 0<p<1,

则在观测到 X=kX=k 后,pp 的条件密度仍为 Beta 型,即

f(pX=k)pk(1p)nkpα1(1p)β1=pα+k1(1p)β+nk1.f(p \mid X=k)\propto p^k(1-p)^{n-k} p^{\alpha-1}(1-p)^{\beta-1} = p^{\alpha+k-1}(1-p)^{\beta+n-k-1}.

因此

pX=kBeta(α+k,β+nk).p \mid X=k \sim \mathrm{Beta}(\alpha+k,\beta+n-k).

这说明 Beta 分布是二项分布参数 pp 的共轭先验分布。

特别地,二项分布中的因子 pk(1p)nkp^k(1-p)^{n-k} 与 Beta 分布密度中的幂函数结构完全一致,因此二者在形式上高度匹配。