二元熵函数 (Binary Entropy Function)

定义和公式

对于一个二元随机变量 X,其概率分布为 P(X=1) = p 和 P(X=0) = 1-p,其中 0 ≤ p ≤ 1。二元熵函数 H(p) 的公式如下:

H(p) = -p * log2(p) – (1-p) * log2(1-p)

特别地,当 p = 0 或 p = 1 时,通常定义 H(0) = H(1) = 0,因为此时结果是完全确定的,没有不确定性。

函数性质

二元熵函数具有以下重要性质:

  • 非负性: H(p) ≥ 0,熵值永远不会是负数,表示信息量的多少。
  • 对称性: H(p) = H(1-p),这反映了 0 和 1 的对称性,意味着互补概率下具有相同的不确定性。
  • 最大值: 当 p = 0.5 时,H(p) 达到最大值,即 H(0.5) = 1。这意味着当两种结果出现的概率相等时,不确定性最大。
  • 单调性: 在区间 [0, 0.5] 上,H(p) 随 p 的增加而增加;在区间 [0.5, 1] 上,H(p) 随 p 的增加而减少。

应用

二元熵函数在信息论和编码理论中有着广泛的应用,主要用于:

  • 数据压缩:衡量压缩算法的极限。例如,无损数据压缩的极限取决于信源的熵。
  • 信道容量:评估信道能够可靠传输的最大信息量。
  • 机器学习:用于评估分类模型的性能,例如交叉熵损失函数。
  • 决策树:用于选择最佳的特征分割点。

与KL散度和交叉熵的关系

二元熵函数与KL散度(Kullback-Leibler Divergence)和交叉熵密切相关。KL散度衡量了两个概率分布之间的差异程度,而交叉熵则可用于衡量两个概率分布之间的”平均编码长度”。在二元分类问题中,交叉熵损失函数与二元熵函数相关,因为它可以用于衡量预测概率分布与真实标签之间的差异。

计算示例

假设有一个硬币,正面朝上的概率 p = 0.75,反面朝上的概率 1-p = 0.25。那么,这个硬币的二元熵为:

H(0.75) = -0.75 * log2(0.75) – 0.25 * log2(0.25) ≈ 0.811

这意味着平均而言,你需要大约 0.811 比特的信息来编码一次硬币投掷的结果。

结论

二元熵函数是信息论中的一个基本概念,用于量化二元随机变量的不确定性。它在数据压缩、信道容量、机器学习等领域有广泛的应用。理解二元熵函数的性质和应用,对于深入理解信息论和相关领域至关重要。

参考资料