优化信息几何数学机器学习统计学

Bregman 散度 (Bregman Divergence)

August 23, 2025 • Bregman散度, KL散度, 优化算法, 凸函数, 距离度量

定义和性质

Bregman 散度基于一个严格凸函数。设 f(x) 是一个定义在凸集 C 上的严格凸函数，其梯度为 ∇f(x)。对于 C 中的任意两点 x 和 y，Bregman 散度定义为：

D_f(x, y) = f(x) – f(y) – <∇f(y), x – y>

其中 < , > 表示内积。由于 f 是严格凸函数，因此 D_f(x, y) ≥ 0，当且仅当 x = y 时，D_f(x, y) = 0。Bregman 散度具有非对称性，即 D_f(x, y) ≠ D_f(y, x)。这使得它能够捕捉到不同方向上的差异。

常见示例

以下是一些常见的 Bregman 散度的示例：

平方欧几里得距离：当 f(x) = ||x||²/2 时，Bregman 散度即为平方欧几里得距离。
KL 散度（Kullback-Leibler 散度）：当 f(x) = x log(x) 时，Bregman 散度对应于离散概率分布的 KL 散度。KL 散度常用于衡量两个概率分布之间的差异。
Hellinger 距离的平方：当 f(x) = -√x 时，Bregman 散度与 Hellinger 距离的平方成正比。Hellinger 距离是衡量两个概率分布之间差异的另一种方法。
Itakura-Saito 距离：当 f(x) = -log(x) 时，Bregman 散度对应于 Itakura-Saito 距离，常用于音频处理领域。

应用领域

Bregman 散度在多个领域都有广泛的应用，主要包括：

优化理论：Bregman 散度可以用于构建优化算法，如 Bregman 迭代方法，解决约束优化问题。
机器学习：在聚类、分类和降维等机器学习任务中，Bregman 散度可以作为损失函数或相似性度量。例如，K-means 聚类可以使用 Bregman 散度来衡量数据点与其簇中心的距离。
图像处理：在图像分割、去噪和重建等任务中，Bregman 散度可以用于衡量图像之间的差异，从而实现图像处理算法。
信息检索：Bregman 散度可以用于衡量文档之间的相似性，从而实现信息检索任务。

由于其非对称性和对凸函数的依赖性，Bregman 散度特别适用于那些差异方向具有重要意义的应用。

结论

Bregman 散度是一种强大的度量，它提供了衡量两个点之间差异的灵活框架。由于其与严格凸函数的内在联系，它能够用于构建各种优化算法，并应用于机器学习、图像处理和信息检索等多个领域。了解和掌握 Bregman 散度的定义、性质和应用，对于深入理解和解决相关领域的实际问题至关重要。

参考资料