自信息 ,表示见到特定结果时的惊讶程度

熵是自信息的期望,

  • 熵表示惊讶程度
  • 熵表示不确定性
  • 熵表示混乱程度(这不是整洁混乱的混乱,而是越均匀越混乱) 经常说熵含有多少信息,这个信息就是指惊讶程度、不确定性、混乱程度

最大熵的连续分布:已知区间 => 均匀分布,已知均值 => 指数分布,已知均值和方差 => 正态分布

联合熵是两随机变量一起含有的信息

条件熵是在Y中而不在X中的信息:

互信息是两随机变量共享的信息: 互信息大,说明两随机变量一起出现的概率高

KL散度(相对熵)

就像norm衡量两个点的距离

KL散度衡量两个概率分布的”距离”,P是真实分布,Q是预测分布 ,Q相对于P的散度 KL散度是非对称的:

相对熵表示见到真实分布P生成的数据时,预测分布Q的人的相对惊讶程度

互信息

交叉熵

交叉熵也衡量两个概率分布的”距离”,P是真实分布、Q是预测分布 交叉熵表示见到真实分布P生成的数据时,预测分布Q的人的惊讶程度

交叉熵 = 熵 + KL散度 在分类任务中,one-hot编码的真实分布的熵 = 0(由熵的公式计算),交叉熵 = KL散度。

最大化对数似然函数 最小化交叉熵 在真实分布固定时,最小化KL散度

多分类交叉熵:是真实值,是预测值 函数在[0,1]区间取值,时,,将对错误且自信的预测施加重罚

参考