进一步理解熵的概念

最开始阅读最大熵模型一篇时,遇到了熵这个概念。一开始,局限在了物化角度上的熵,实际上,这里有了新的意义-信息熵。不同于物化上的熵,信息熵有着新的理论以及计算方式。

自信息与熵

在信息论中,熵用来衡量一个随机事件的不确定性。假设对一个随机变量X(取值集合为X,概率分布为p(x),)进行编码,自信息I(x) 是变量X = x 时的信息量或编码长度,定义为

I(x) = −log(p(x))

那么随机变量X 的平均编码长度,即熵。

我们可以简单计算一下,平均编码长度关于随机变量X单调递减,也即一个事件发生概率越低,则其编码长度越小。如果变量X 当且仅当在x 时p(x) = 1,则熵为0。也就是说,对于一个确定的信息,其熵为0,信息量也为0。

熵是一个随机变量的平均编码长度,即自信息的数学期望。熵越高,则随机变量的信息越多。熵越低,则信息越少。如果其概率分布为一个均匀分布,则熵最大。

显然的,对于两个离散随机变量X和Y ,假设X取值集合为X;Y取值集合为Y,其联合概率分布满足为p(x, y),则X 和Y 的联合熵为H(X,Y)。

而X,Y的条件熵H(X|Y ) = H(X, Y ) − H(Y ).

 

互信息与交叉熵、散度

互信息(mutual information)是衡量已知一个变量时,另一个变量不确定性的减少程度。

互信息的一个性质为
I(X; Y ) = H(X) − H(X|Y )
= H(Y ) − H(Y |X).
如果X 和Y 相互独立,即X 不对Y 提供任何信息,反之亦然,因此它们的互信息为零。

也即,如果说在X对Y确定性的影响因子。

交叉熵(cross entropy)是按照概率分布q 的最优编码对真实分布为p 的信息进行编码的长度,在给定p 的情况下,如果q 和p 越接近,交叉熵越小;如果q 和p 越远,交叉熵就越大。

未完,待续。。。

未经允许不得转载:OpenSL » 进一步理解熵的概念

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址