自信息
熵是自信息的期望,
- 熵表示惊讶程度
- 熵表示不确定性
- 熵表示混乱程度(这不是整洁混乱的混乱,而是越均匀越混乱) 经常说熵含有多少信息,这个信息就是指惊讶程度、不确定性、混乱程度
最大熵的连续分布:已知区间 => 均匀分布,已知均值 => 指数分布,已知均值和方差 => 正态分布
联合熵
条件熵
互信息是两随机变量共享的信息:
互信息大,说明两随机变量一起出现的概率高
KL散度(相对熵)
就像norm衡量两个点的距离
KL散度衡量两个概率分布的”距离”,P是真实分布,Q是预测分布
相对熵表示见到真实分布P生成的数据时,预测分布Q的人的相对惊讶程度
互信息
交叉熵
交叉熵也衡量两个概率分布的”距离”,P是真实分布、Q是预测分布
最大化对数似然函数
多分类交叉熵:[0,1]区间取值,错误且自信的预测施加重罚