第六章 广义线性模型 高斯分布 伯努利分布的另一个意义(1)

广义线性模型

广义线性模型的理论基础很多,这里直接拿过来用: 广义线性模型:

  • 给定特征属性x和参数$\theta$后,y的条件概率$P(y|x;\theta)$服从指数分布族其中,指数分布形式如下:

$$P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))$$

  • 预测$T(y)$的期望,即计算$E[T(y)|x]$。

  • $\eta$与x之间是线性的,即$\eta=\theta^Tx$。

高斯分布的另一种看法

把高斯分布看成是指数分布族:

$$P(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{(y-\mu)^2}{2\delta^2})\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2-2y\mu+\mu^2}{2\delta^2})\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2})exp(\frac{y\mu}{\delta^2}-\frac{\mu^2}{2\delta^2})$$

对比一下指数分布形式:

$$b(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2}),\eta=\frac{\mu}{\delta^2},T(y)=y,a(\eta)=\frac{\mu^2}{2\delta^2}$$

根据广义线性模型第三条:

$$\eta=\frac{\mu}{\delta^2}=\theta^Tx$$

根据极大似然估计:

$$L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\mu)^2}{2\delta^2}}$$

因为$\delta$对模型参数的选择没有影响,这里假设$\delta^2=1$

$$L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\theta^Tx)^2}{2\delta^2}}$$

目标函数最大值,只需要:

$$J(\theta)=\frac{1}{2}\sum_{i=1}^m(y(i)-\theta^Tx^{(i)})^2$$

对$J(\theta)$求导数,这里的目标函数和最小二乘法的算法是一样的,在这里我们采用的是极大似然估计的方法,得出的结果跟最小二乘法是一样的,当时高斯提出最小二乘法,并不是使用极大似然,也可以说明样本误差是服从高斯分布的,慢慢的看到了一种各种算法大融合的趋势。最小二乘法,还有一种概率上的解释。在这里:

假设观察数据是线性关系,表示为:

$$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$$

而这里的误差$\epsilon^{(i)}$服从高斯分布。

$$P(\epsilon(i))=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{({\epsilon^{(i)})}^2}{2\delta^2}) \ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{{y(i)-\theta^Tx^{i}}^2}{2\delta^2})$$

利用极大似然,目标函数跟广义线性模型是一样的。又一种方法解释最小二乘法的合理性。

伯努利分布--Logistic回归的含义

继续回到广义线性模型,看完了正态分布,继续来看伯努利分布,伯努利分布是最简单的一种分布,也叫0-1分布,即成功为1,失败为0。 概率密度函数为:

$$P(y;\phi)=\phi^y(1-\phi)^{(1-y)}$$

变形,把它变成指数分布族的形式:

$$P(y;\phi)=\phi^y(1-\phi)^{(1-y)}\ =exp(ln(\phi^y(1-\phi)^{(1-y)}))\ =exp(yln\phi+(1-\phi)(1-y))\ =exp(yln\frac{\phi}{1-\phi}+ln(1-\phi))$$

对比指数分布族,有

$b(y)=1,\eta=ln\frac{\phi}{1-\phi},T(y)=y,a(\eta)=-ln(1-\phi)$

如下:

$\eta=ln\frac{\phi}{1-\phi}\Rightarrow \phi=\frac{1}{1+e^{-\eta}}$

在利用广义线性模型第三点:

$\eta=\theta^Tx$

可得:

$\theta=\frac{1}{1+e^{-\theta^Tx}}$

对这个公式,是不是非常的熟悉。 在Logistic回归中要归类的是喜欢和不喜欢,属于伯努利分布,之前Logistic回归为何把Sigmoid函数取为:

$\frac{1}{1+e^{-\theta^Tx}}$

是有理论基础的,也就是广义线性模型。

PS: 如本文对您有帮助,不妨通过一下方式支持一下博主噢 ^_^

官方
微信
官方微信
Q Q
咨询
意见
反馈
返回
顶部