Fisher信息阵公式推导实战:从高斯分布到CRLB的完整指南

张开发
2026/5/23 23:23:37 15 分钟阅读
Fisher信息阵公式推导实战:从高斯分布到CRLB的完整指南
Fisher信息阵公式推导实战从高斯分布到CRLB的完整指南在参数估计理论中Fisher信息阵和Cramér-Rao下界CRLB是两个核心概念。它们不仅为评估估计器性能提供了理论基准也在信号处理、统计学和机器学习等领域有着广泛应用。本文将带你从高斯分布出发一步步推导Fisher信息阵的公式并最终得到CRLB的完整表达式。1. 理论基础与预备知识1.1 高斯分布与参数估计高斯分布又称正态分布是统计学中最重要的一类概率分布其概率密度函数为import numpy as np def gaussian_pdf(x, mu, sigma): 一维高斯分布概率密度函数 return 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-(x-mu)**2/(2*sigma**2))对于多维情况假设x是一个N维随机向量其概率密度函数可以表示为$$ p(x|\theta) \frac{1}{(2\pi)^{N/2}|\mathbf{C}(\theta)|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu(\theta))^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\right) $$其中$\mu(\theta)$ 是均值向量$\mathbf{C}(\theta)$ 是协方差矩阵$\theta$ 是待估计的参数1.2 Fisher信息阵的基本概念Fisher信息阵衡量了观测数据携带关于参数θ的信息量。对于标量参数θFisher信息定义为$$ I(\theta) \mathbb{E}\left[\left(\frac{\partial}{\partial\theta}\ln p(x|\theta)\right)^2\right] $$对于多参数情况Fisher信息阵的第(i,j)个元素为$$ I_{ij}(\theta) \mathbb{E}\left[\frac{\partial}{\partial\theta_i}\ln p(x|\theta) \frac{\partial}{\partial\theta_j}\ln p(x|\theta)\right] $$注意Fisher信息阵的一个重要性质是它等于对数似然函数二阶导数的负期望值。2. 高斯分布下Fisher信息阵的推导2.1 对数似然函数的构建对于高斯分布我们首先写出其对数似然函数$$ \ln p(x|\theta) -\frac{N}{2}\ln(2\pi) - \frac{1}{2}\ln|\mathbf{C}(\theta)| - \frac{1}{2}(x-\mu(\theta))^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta)) $$2.2 一阶导数的计算为了求Fisher信息阵我们需要计算对数似然函数对参数的一阶导数。考虑θ_i是θ的第i个分量$$ \frac{\partial}{\partial\theta_i}\ln p(x|\theta) -\frac{1}{2}\frac{\partial}{\partial\theta_i}\ln|\mathbf{C}(\theta)| - \frac{1}{2}\frac{\partial}{\partial\theta_i}\left[(x-\mu(\theta))^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\right] $$这个导数可以分为两部分计算行列式项的导数 $$ \frac{\partial}{\partial\theta_i}\ln|\mathbf{C}(\theta)| \text{tr}\left(\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_i}\right) $$二次型的导数 $$ \frac{\partial}{\partial\theta_i}\left[(x-\mu(\theta))^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\right] -2\left(\frac{\partial\mu(\theta)}{\partial\theta_i}\right)^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta)) (x-\mu(\theta))^T\frac{\partial\mathbf{C}(\theta)^{-1}}{\partial\theta_i}(x-\mu(\theta)) $$2.3 Fisher信息阵元素的表达式利用上述结果Fisher信息阵的第(i,j)个元素可以表示为$$ I_{ij}(\theta) \mathbb{E}\left[\left(\frac{\partial}{\partial\theta_i}\ln p(x|\theta)\right)\left(\frac{\partial}{\partial\theta_j}\ln p(x|\theta)\right)\right] $$经过推导具体过程见下一节可以得到一般高斯情况下的Fisher信息阵公式$$ I_{ij}(\theta) \left(\frac{\partial\mu(\theta)}{\partial\theta_i}\right)^T\mathbf{C}(\theta)^{-1}\left(\frac{\partial\mu(\theta)}{\partial\theta_j}\right) \frac{1}{2}\text{tr}\left(\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_i}\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_j}\right) $$3. 详细推导过程3.1 第一部分均值相关项的推导考虑对数似然函数导数中与均值相关的部分$$ \frac{\partial\mu(\theta)}{\partial\theta_i}^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta)) $$计算期望时注意到$$ \mathbb{E}\left[\frac{\partial\mu(\theta)}{\partial\theta_i}^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\cdot\frac{\partial\mu(\theta)}{\partial\theta_j}^T\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\right] \frac{\partial\mu(\theta)}{\partial\theta_i}^T\mathbf{C}(\theta)^{-1}\frac{\partial\mu(\theta)}{\partial\theta_j} $$因为$\mathbb{E}[(x-\mu(\theta))(x-\mu(\theta))^T] \mathbf{C}(\theta)$。3.2 第二部分协方差相关项的推导对于协方差矩阵相关的部分推导更为复杂。我们需要计算$$ \mathbb{E}\left[\left(-\frac{1}{2}\text{tr}\left(\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_i}\right) \frac{1}{2}(x-\mu(\theta))^T\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_i}\mathbf{C}(\theta)^{-1}(x-\mu(\theta))\right)\times \text{类似θ_j的表达式}\right] $$经过一系列矩阵运算和期望计算最终可以得到$$ \frac{1}{2}\text{tr}\left(\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_i}\mathbf{C}(\theta)^{-1}\frac{\partial\mathbf{C}(\theta)}{\partial\theta_j}\right) $$3.3 交叉项的消失值得注意的是均值相关项和协方差相关项的交叉期望为零$$ \mathbb{E}\left[\text{均值项} \times \text{协方差项}\right] 0 $$这是因为高斯分布的三阶矩为零性质6而交叉项中包含了(x-μ)的奇数次幂。4. 从Fisher信息阵到CRLB4.1 Cramér-Rao下界的基本形式Cramér-Rao下界给出了无偏估计量方差的下限。对于标量参数θCRLB为$$ \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} $$对于多参数情况CRLB表示为$$ \text{Cov}(\hat{\theta}) \geq \mathbf{I}(\theta)^{-1} $$其中$\text{Cov}(\hat{\theta})$是估计量的协方差矩阵$\mathbf{I}(\theta)$是Fisher信息阵。4.2 高斯分布下的CRLB表达式结合我们推导出的Fisher信息阵可以得到高斯分布下CRLB的具体形式。例如当只有均值依赖于参数θ时即$\mathbf{C}(\theta)$为常数CRLB简化为$$ \text{Cov}(\hat{\theta}) \geq \left(\frac{\partial\mu(\theta)}{\partial\theta}^T\mathbf{C}^{-1}\frac{\partial\mu(\theta)}{\partial\theta}\right)^{-1} $$4.3 实际应用中的考量在实际应用中计算CRLB时需要注意以下几点模型正确性CRLB假设模型完全正确任何模型失配都会影响实际性能大样本性质CRLB是渐近下界在小样本情况下可能需要修正计算复杂度对于高维参数Fisher信息阵的求逆可能计算量很大以下是一个简单的Python示例展示如何计算一维情况下的CRLBimport numpy as np def compute_crlb(sigma, dmu_dtheta, n_samples): 计算一维高斯情况下的CRLB fisher_info n_samples * (dmu_dtheta**2) / (sigma**2) return 1 / fisher_info # 示例估计均值的变化率已知sigma1dmu/dtheta0.5100个样本 crlb compute_crlb(sigma1.0, dmu_dtheta0.5, n_samples100) print(fCRLB: {crlb:.4f})5. 高级话题与扩展5.1 非高斯分布下的Fisher信息阵虽然本文重点讨论高斯情况但Fisher信息阵的概念适用于任何正则分布。对于非高斯分布计算步骤类似写出概率密度函数p(x|θ)计算对数似然函数ln p(x|θ)求一阶导数∂/∂θ ln p(x|θ)计算期望值得到Fisher信息阵5.2 有偏估计的CRLB修正当估计量有偏时CRLB需要修正。设b(θ)是估计量的偏置b(θ) E[θ̂] - θ则修正后的CRLB为$$ \text{Var}(\hat{\theta}) \geq \frac{\left(1 \frac{db(\theta)}{d\theta}\right)^2}{I(\theta)} $$5.3 Fisher信息阵在机器学习中的应用在机器学习领域Fisher信息阵有几个重要应用自然梯度下降使用Fisher信息阵作为梯度下降的度量矩阵神经网络训练Fisher信息可以用于近似Hessian矩阵模型比较Fisher信息量可以反映模型对参数的敏感程度以下表格比较了不同场景下Fisher信息阵的计算特点场景均值依赖θ协方差依赖θFisher信息阵主要项恒定均值否是仅协方差项线性均值是否仅均值项一般情况是是均值项协方差项在实际项目中我发现理解Fisher信息阵的结构对于设计高效估计算法至关重要。特别是在传感器阵列处理和通信系统设计中明确哪些参数对Fisher信息贡献最大可以指导我们优化系统配置和采样策略。

更多文章