第二章:随机变量及其分布
第二章:随机变量及其分布
2.1 随机变量
随机变量的定义
设随机试验 \(E\) 的样本空间为 \(S=\{e\}\),对于每一个 \(e\in S\) ,都有唯一的一个实数 \(X(e)\) 与之对应,并且对于任意的实数 \(x\),则称这样的实值函数 \(X=X(e)\) 为随机变量,简记为 \(X\)。
2.2 随机变量的分布函数
随机变量的分布函数的定义
设 \(X\) 为随机变量,对于任意的实数 \(x\) ,令 \(F(x)=P\{X\leq x\},-\infty<x<\infty\),称 \(F(x)\) 为随机变量 \(X\) 的概率分布函数,简称分布函数。
记为 \(X\sim F(x)\)
\[ F(x)=P\{X\leq x\}=P\{e\in S|-\infty < X(e) \leq x\} \]
随机变量的分布函数的性质
取值范围:\(0\leq F(x)\leq 1\),且有: \[ F(+\infty)=\lim\limits_{x\rightarrow +\infty}F(x)=1\quad F(-\infty)=\lim\limits_{x\rightarrow -\infty}F(x)=0 \]
单调不减: \[ x_1 < x_2 \implies F(X_1) \leq F(x_2) \]
右连续: \[ F(x^+_0)=\lim\limits_{x\rightarrow x_0^+}F(x)=F(x_0) \]
反之:若定义在 \((-\infty , +\infty)\) 的实函数 \(F(x)\) 满足以上性质,则 \(F(x)\) 一定是某随机变量 \(X\) 的分布函数。(判断是否为随机变量的分布函数)
对任意实数 \(a<b\),有: \[ P\{a<X\leq b\}=P\{X\leq b\}-P\{X\leq a\}=F(b)-F(a) \]
对任意实数 \(x_0\),有: \[ P\{X=x_0\}=P\{X\leq x_0\}-P\{X<x_0\} \]
2.3 离散型随机变量及其概率分布
离散型随机变量的定义
若随机变量\(X\)只可能取有限个或可数个实数值:
\[ x_1,x_2,\dots ,x_k,\dots \quad(x_i\ne x_j, \forall i\ne j) \]
则称 \(X\) 为离散型随机变量。
\(X\) 取各个可能的值的概率 \(p_k=P\{X=x_k\},k=1,2,\dots\) 称为离散型随机变量 \(X\) 的概率分布(或分布律、分布列)。
离散型随机变量分布律的表示方法
- 公式法
列表法或矩阵法
\(X\) \(x_1\) \(x_2\) … \(x_k\) … \(P\) \(p_1\) \(p_2\) … \(p_k\) …
离散型随机变量的分布律的性质
- \[ p_k = P \{X = x_k \} \geq 0,\quad k=1,2,\dots \]
- \[ \sum\limits_k p_k=1 \]
定理
设离散型随机变量 \(X\) 的分布律 \(p_k = P \{ X = x_k \},\quad k=1,2,\dots\)
- \(X\) 的分布函数: \[ \forall x\in R,F(x)=P\{X\leq x\}=\sum\limits_{x_k \leq x}P\{X=x_k\}=\sum\limits_{x_k \leq x}p_k \]
- 对于任意区间 \(I\),有: \[ P\{X\in I\}=\sum\limits_{x_k\in I}P\{X=x_k\}=\sum\limits_{x_k\in I}p_k \]
- 由分布函数可确定分布律: \[ p_k=P\{X=x_k\}=F(x_k)-F(x_k^-)\quad k=1,2,\dots \]
2.4 常用离散型随机变量的分布
2.4.1 两点分布
定义
若随机变量\(X\)的分布律为:
\[ \left. \begin{aligned} & P\{X=1\} = p\\ & P\{X=0\} = 1-p \end{aligned} \right. \quad (0<p<1) \]
则称 \(X\) 服从参数 \(p\) 的两点分布,或称(0-1)分布。
一般来说,凡是只有两个可能结果的随机试验都可以用两点分布的随机变量来描述。
2.4.2 二项分布
二项分布来源于 \(n\) 重伯努利试验。
\(n\) 重伯努利试验:
设试验 \(E\) 只有两个可能的结果:\(A\) 和 \(\overline{A}\)。
\[ P(A)=p\quad (0<p<1),\quad P(\overline{A})=1-p \]
将试验 \(E\) 独立地重复做 \(n\) 次,则这 \(n\) 次独立重复试验称为 \(n\) 重伯努利试验。
二项分布的定义
如果随机变量\(X\)的分布律为:
\[ P\{X=k\}=C^k_np^k(1-p)^{n-k},\quad k=0,1,2,\dots ,n\quad (0<p<1) \]
则称\(X\)服从参数为\(n,p\)的二项分布,记作 \(X\sim B(n,p)\)
两点分布是二项分布的特殊形式,即 \(X\sim B(1,p)\)。
2.4.3 泊松分布
泊松分布的定义
若随机变量 \(X\) 的分布律为:
\[ P\{X=k\}=e^{-\lambda}\cdot\dfrac{\lambda^k}{k!},\quad k=0,1,2, \dots \quad(\lambda>0) \]
则称 \(X\) 服从参数为 \(\lambda\) 的泊松分布,记作 \(X\sim \Pi(\lambda)\)
泊松分布适用于描述单位时间(或空间)内随机事件发生的次数。
Poisson 定理
设 \(\lim\limits_{n\rightarrow \infty}np_n=\lambda >0\),则对固定的 \(k\) ,
\[ \lim\limits_{n\rightarrow\infty}C_n^kp_n^k(1-p_n)^{n-k}=e^{-\lambda}\cdot \dfrac{\lambda^k}{k!}\quad k=0,1,2,\dots \]
Poisson 定理说明:若 \(X\sim B(n,p)\) ,则当 \(n\) 较大,\(p\) 较小,而\(np=\lambda\) 适中,则可使用近似公式:
\[ C_n^kp_n^k(1-p_n)^{n-k}\approx e^{-\lambda}\cdot \dfrac{\lambda^k}{k!}\quad k=0,1,2,\dots \]
2.4.4 超几何分布
设一批产品中有 \(M\) 件正品,\(N\) 件次品,从中任意取 \(n\) 件,则取到的次品数 \(X\) 是一个离散型随机变量,它的概率分布为:
\[ P\{X=k\}=\dfrac{C^k_N\cdot C_M^{n-k}}{C^n_{M+N}}\quad k=0,1,2,\dots ,\min(n,N) \]
这个分布称为超几何分布
2.5 连续型随机变量及其概率密度函数
连续型随机变量及其概率密度函数的定义
设随机变量 \(X\) 的分布函数为 \(F(x)\),如果存在一个定义在\((-\infty,+\infty)\) 上非负可积函数\(f(x)\),使得对任何实数 \(x\) 恒有
\[ F(x)=\int^x_{-\infty}f(t)\ \mathrm{d}t \]
则称 \(X\) 为连续型随机变量,称函数 \(f(x)\) 为随机变量 \(X\) 的概率密度函数(或分布密度函数),简称概率密度。
概率密度函数的性质
- 对一切 \(x\in (-\infty, +\infty),f(x)\geq 0\)
- \(\int^{+\infty}_{-\infty}f(x)\ \mathrm{d}x=F(+\infty) = 1\)
反之,任何一个具有以上性质的可积实函数 \(f(x)\),可成为某个连续型随机变量的概率密度函数。
- \(P\{X=x\}=F(x)-F(x^-)=0,\forall x\in (-\infty,+\infty)\)
连续型随机变量取任何特定值的概率都是 \(0\)
- 设 \(I=(a,b]\) 或 \([a,b]\)或\([a,b)\)或\((a,b)\),允许 \(a=-\infty\),或 \(b=+\infty\),则:
\[ P\{X\in I\}=F(b)-F(a)=\int_a^b f(x)\ \mathrm{d}x \]
- 连续性随机变量在任一区间上取值的概率为此区间上概率密度函数曲线下方的曲边梯形的面积。
设 \(X\) 为连续型随机变量,分布函数为 \(F(x)\),概率密度为 \(f(x)\),则有
- \(F(x)=\int_{-\infty}^x f(t)\ \mathrm{d}t\)是连续函数
- 若 \(f(x)\) 在 \(x_0\) 点连续,则 \(F(x)\) 在 \(x_0\) 点可导,且 \(F'(x_0)=f(x_0)\)
- 若\(f(x)\)是分段连续函数,只有有限个不连续点,则 \(F'(x)=f(x)\)
2.6 常用的连续型随机变量分布
2.6.1 均匀分布
均匀分布的定义
若连续型随机变量 \(X\) ,它的概率密度为:
\[ f(x)=\left\{ \begin{aligned} &0,&&x<a\\ &\dfrac{1}{b-a},&&a\leq x\leq b\\ &0,&&x>b \end{aligned} \right. \]
则称 \(X\) 在区间 \([a,b]\) 上服从均匀分布。记作 \(X\sim U[a,b]\)
2.6.2 指数分布
指数分布的定义
如果随机变量 \(X\) 的概率密度为:
\[ f(x)= \begin{cases} 0, &x<0\\ \lambda e^{-\lambda x}, &x \geq 0 \end{cases} \quad(\lambda>0为常数) \]
则称 \(X\) 为服从参数 \(\lambda\) 的指数分布,记为 \(X\sim e(\lambda)\)
若 \(X\) 服从参数为 \(\lambda\) 的指数分布,则它的分布函数为:
\[ F(x)=\int_{-\infty}^{x}f(t)\ \mathrm{d}t= \begin{cases} 0,&x<0\\ 1-e^{-\lambda x}, &x\geq 0 \end{cases} \]
2.6.5 正态分布
正态分布的定义
若 \(X\) 为连续型随机变量,且其概率密度为
\[ f(x) = \dfrac{1}{\sigma\sqrt{2\pi}} \exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\},\quad -\infty< x<\infty \]
其中 \(-\infty < \mu < +\infty,\sigma > 0\) 均为常数,那么称 \(X\) 为服从参数为 \(\mu,\sigma\) 的正态分布。记作 \(X\sim N(\mu, \sigma ^2)\)
正态分布的性质
- 曲线关于直线 \(x=\mu\) 对称,\((-\infty,\mu]\) 递增,\([\mu, +\infty)\) 递减;当 \(x = \mu\) 时,\(f(x)\) 达到最大值 \(f_{\max}(\mu)=\dfrac{1}{\sigma\sqrt{2\pi}}\);
- \(\lim\limits_{x\rightarrow\pm\infty}f(x)=0\),曲线以 \(x\) 轴为渐近线;
- 曲线在 \(x=\mu+\sigma\) 及 \(x=\mu- \sigma\) 处有拐点。
2.6.6 标准正态分布
标准正态分布的定义
参数 \(\mu=0,\sigma=1\) 的正态分布,即 \(N(0,1)\) 称为标准正态分布,其概率密度和分布函数分别用 \(\varphi(x)\) 和 \(\Phi(x)\) 表示。
\[ \begin{aligned} & \varphi(x)=\dfrac{1}{\sqrt{2\pi}} \exp\left\{-\dfrac{x^2}{2}\right\}\\ & \Phi(x)=\int^x_{-\infty} \varphi(t)\ \mathrm{d}t=\dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}\exp\left\{-\dfrac{t^2}{2}\right\}\ \mathrm{d}t \end{aligned} \]
标准正态分布的性质
\(\Phi(x)+\Phi(-x)=1\)
\(\Phi(0)=\dfrac12\)
\(\Phi'(x)=\varphi(x)>0\),即 \(\Phi(x)\) 严格单调递增
\(N(\mu,\sigma^2)\)与标准正态分布 \(N(0,1)\) 的关系:
\[ F(x)=\Phi(\dfrac{x-\mu}{\sigma}),\quad -\infty<x<+\infty \]
标准正态分布分位点的定义
设 \(X\sim N(0,1)\),给定 \(\alpha(0<\alpha<1)\),若存在唯一的 \(z_\alpha\) ,使得:
\[ P\{X\leq z_\alpha\}=\Phi(z_\alpha)=\alpha \]
称 \(z_\alpha\) 为 \(N(0,1)\) 的下侧 \(\alpha\) 分位点(分位数)。
分位点的性质
对于 \(\forall \alpha(0<\alpha<1)\),有:
- \(z_{1-\alpha}=-z_\alpha\)
- \(P\{X>z_{1-\alpha}\}=\alpha\)
- \(P\{|X|>z_{1-\frac{\alpha}{2}}\}=\alpha\) 或 \(P\{|X|\leq z_{1-\frac{\alpha}2}\}=1-\alpha\)