标准正态分布是正态分布的一种特殊形式,其均值为0,标准差为1。在统计学和概率论中,标准正态分布通常用 Z 表示。以下是标准正态分布的详细介绍:
定义
标准正态分布是一个均值为0,标准差为1的正态分布,其概率密度函数(PDF)为:
f(z)=2π1e−2z2
其中, z 是标准化后的变量。
特性
- 对称性:标准正态分布关于均值 z=0 对称。
- 总面积:标准正态分布曲线下的总面积等于1。
- 68-95-99.7 规则:在标准正态分布中,
- 约68%的数据位于 z=0 的 ±1个标准差内(即在区间 [-1, 1] 内)。
- 约95%的数据位于 z=0 的 ±2个标准差内(即在区间 [-2, 2] 内)。
- 约99.7%的数据位于 z=0 的 ±3个标准差内(即在区间 [-3, 3] 内)。
标准化
将任意正态分布 N(μ,σ2) 的变量 X 转换为标准正态分布 Z 的过程称为标准化。标准化公式为:
Z=σX−μ
其中,μ 是均值,σ 是标准差。标准化后的变量 Z 遵循标准正态分布 N(0,1)。
累积分布函数(CDF)
标准正态分布的累积分布函数(CDF)表示随机变量 Z 小于或等于某一值 z 的概率,记为 Φ(z):
Φ(z)=P(Z≤z)=∫−∞z2π1e−2t2dt
当z取无穷时, 这是高斯积分, 可以计算;
但当z不是无穷时, 这个积分没有解析解,通常使用数值方法或查表来计算。
Z表
标准正态分布表(Z表)列出了不同 z 值对应的累积分布函数值 Φ(z)。Z表通常用于计算各种概率,如:
- P(Z≤z)
- P(Z≥z)=1−Φ(z)
- P(a≤Z≤b)=Φ(b)−Φ(a)
应用
标准正态分布在统计学中有广泛的应用,主要包括:
- 假设检验:用于计算p值和确定临界值。
- 置信区间:用于构建参数估计的置信区间。
- 概率计算:用于计算在不同范围内数据的概率。
示例
假设我们有一个随机变量 X 服从正态分布 N(100,152)。我们想知道 X 小于115的概率。首先,我们将 X 标准化:
Z=15115−100=1
然后查找标准正态分布表得到:
P(Z≤1)=Φ(1)≈0.8413
因此,P(X≤115)≈0.8413,即约84.13%的概率 X 小于115。
标准正态分布是理解和应用正态分布的重要基础工具,通过标准化,许多复杂的概率和统计问题都能得到简化和解决。