一元多元数据标准化

张开发
2026/4/4 18:03:54 15 分钟阅读
一元多元数据标准化
在求正态分布的数学期望和方差中用到了一种变换令U(X−μ)/σU(X-\mu)/\sigmaU(X−μ)/σ由E(U)0E(U)0E(U)0Var(U)1\text{Var}(U)1Var(U)1然后再去求出XXX的数学期望和方差。这个变换具有普遍意义。对任意随机变量XXX如果XXX的数学期望均值为μ\muμ方差为σ2\sigma^2σ2则称ZX−μσ Z\frac{X-\mu}{\sigma}ZσX−μ​为XXX的标准化随机变量且可得E(Z)0,Var(Z)1. E(Z)0, \quad \text{Var}(Z)1.E(Z)0,Var(Z)1.标准化的意义消除量纲标准化可以消除原始数据的单位和量级影响使得不同量纲或不同数量级的数据可以进行比较。统一尺度将数据转换到一个统一的尺度上便于后续的统计分析和建模。例如在机器学习中很多算法如支持向量机、逻辑回归都对特征的尺度敏感标准化是常用的预处理步骤。简化计算在处理正态分布时标准化可以将任意正态分布N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)转换为标准正态分布N(0,1)N(0, 1)N(0,1)从而可以利用标准正态分布表来查概率简化计算。多元数据zΛ−12U⊤(x−μ) {\bm z} {\bm \varLambda}^{- \frac{1}{2}} {\bm U}^{\top} \left( {\bm x} - {\bm \mu} \right)zΛ−21​U⊤(x−μ)一维情况标准化在一维空间中用(x−μ)/σ(x - \mu) / \sigma(x−μ)/σ来标准化数据。这里的σ2\sigma^2σ2方差衡量了数据点xxx偏离均值μ\muμ的“程度”或“代价”。标准化后数据被转换到一个均值为0、方差为1的统一尺度上。多维情况马氏距离在多维空间中情况更复杂。不仅需要考虑每个维度自身的方差还需要考虑不同维度之间的相关性。这时协方差矩阵CCC就扮演了关键角色。协方差矩阵CCC它不仅包含了每个变量的方差对角线元素还包含了不同变量之间的协方差非对角线元素从而完整地描述了多维数据的“形状”和“方向”。

更多文章