信息论数学数据科学概率论计算机科学

二元熵函数 (Binary Entropy Function)

August 26, 2025 • 二元熵函数, 信息量, 数据压缩, 概率, 熵

定义和公式

对于一个二元随机变量 X，其概率分布为 P(X=1) = p 和 P(X=0) = 1-p，其中 0 ≤ p ≤ 1。二元熵函数 H(p) 的公式如下：

H(p) = -p * log₂(p) – (1-p) * log₂(1-p)

特别地，当 p = 0 或 p = 1 时，通常定义 H(0) = H(1) = 0，因为此时结果是完全确定的，没有不确定性。

函数性质

二元熵函数具有以下重要性质：

非负性： H(p) ≥ 0，熵值永远不会是负数，表示信息量的多少。
对称性： H(p) = H(1-p)，这反映了 0 和 1 的对称性，意味着互补概率下具有相同的不确定性。
最大值： 当 p = 0.5 时，H(p) 达到最大值，即 H(0.5) = 1。这意味着当两种结果出现的概率相等时，不确定性最大。
单调性： 在区间 [0, 0.5] 上，H(p) 随 p 的增加而增加；在区间 [0.5, 1] 上，H(p) 随 p 的增加而减少。

应用

二元熵函数在信息论和编码理论中有着广泛的应用，主要用于：

数据压缩：衡量压缩算法的极限。例如，无损数据压缩的极限取决于信源的熵。
信道容量：评估信道能够可靠传输的最大信息量。
机器学习：用于评估分类模型的性能，例如交叉熵损失函数。
决策树：用于选择最佳的特征分割点。

与KL散度和交叉熵的关系

二元熵函数与KL散度（Kullback-Leibler Divergence）和交叉熵密切相关。KL散度衡量了两个概率分布之间的差异程度，而交叉熵则可用于衡量两个概率分布之间的”平均编码长度”。在二元分类问题中，交叉熵损失函数与二元熵函数相关，因为它可以用于衡量预测概率分布与真实标签之间的差异。

计算示例

假设有一个硬币，正面朝上的概率 p = 0.75，反面朝上的概率 1-p = 0.25。那么，这个硬币的二元熵为：

H(0.75) = -0.75 * log₂(0.75) – 0.25 * log₂(0.25) ≈ 0.811

这意味着平均而言，你需要大约 0.811 比特的信息来编码一次硬币投掷的结果。

结论

二元熵函数是信息论中的一个基本概念，用于量化二元随机变量的不确定性。它在数据压缩、信道容量、机器学习等领域有广泛的应用。理解二元熵函数的性质和应用，对于深入理解信息论和相关领域至关重要。

参考资料