朴素平均场到 TAP 方程

《Advanced Mean Field Theory》读书笔记 第2章

Posted by TablewareBox on April 15, 2019

2.1 引言

平均场方法通过保留随机变量间的相互作用但忽略特定的相关性,从而近似计算高维分布的求和或积分。本章介绍三种方法:

  • 变分平均场(朴素平均场):采用变量分离近似,变分求解
  • 场论方法:引入辅助变量,在复平面用鞍点近似积分求解
  • Thouless-Anderson-Palmer (TAP) 方法,从空穴法Plefka 展开两个角度理解

以下以 Ising 模型(对应机器学习中的 Boltzmann 机)为例。

  • 随机向量 $\mathbf{s}=(s_1,\ldots,s_N),s_i=\pm 1$ 表示自旋。
  • 哈密顿量
  • 配分函数
  • 真实分布

2.2 变分平均场(朴素平均场)

变分方法以分布 $q(\mathbf{s})$ 近似真实分布 $p(\mathbf{s})$。$q(\mathbf{s})$ 通常从一族易处理的分布中选取,可用 KL散度 衡量它与真实分布的距离:

将 $p(\mathbf{s})$ 表达式代入可得

其中:

  • 变分能量
  • 分布 $q$ 的熵
  • 变分自由能

等号仅当 $q(\mathbf{s})=p(\mathbf{s})$ 时成立。故 $F(q)$ 取最小值时近似最好,可通过变分实现:

这一方法在机器学习的变分推断(Variational Inference) 中被广泛用于对目标分布的近似,变分自由能在机器学习中被称为变分下界(Variational Lower Bound, V-LB)证据下界(Evidence Lower Bound, ELBO)

一种最简单的 $q$ 选法是忽略不同自旋间的统计相关性,即朴素平均场近似:

其中 $q_i(s_i)$ 随 $s_i$ 的期望 $m_i = \mathbb{E}_q [s_i]$ 在$[0,1]$ 间线性变化:

将 $q(\mathbf{s})$ 的表达式代入得

由变分条件最终推出 $N$ 个方程组成的自洽场方程组

方程组可在 $N$ 的多项式时间内得出数值解。

也可以求出实际分布时 $s_i$ 的期望遵循的方程组(以下 $\mathbf{s}\backslash s_i$ 表示除 $s_i$ 外 $N-1$ 个自旋):

可以看出平均场近似将涨落的场 $h_i=\sum_j J_{ij}s_j+\theta_i$ 用“平均场” $\mathbb{E} _ q[h _ i]=\sum _ j J _ {ij}\mathbb{E} _ q[s _ j]+\theta_i$ 代替了。

2.3 线性响应校正

虽然变量分离的 $q(\mathbf{s})$ 完全忽略了随机变量间的相关性,但仍可近似计算它们的协方差:

两侧对 $\theta_j$ 求导得

若平均场近似足够合理,则可近似得到协方差:

这种对协方差的近似已用于 Boltzmann 机学习ICA(独立成分分析)

2.4 场论方法

另一个思路是,积分的近似求和的近似更容易计算准确。可将对 $s_i$ 求期望转变为对辅助变量求积分,再采用 Laplace 近似鞍点近似。对高斯形式的函数主要方法有两种,视指数的正负号而定。证明可通过配方(略):

  • 高斯函数的傅里叶变换进行转化(也称为 Hubbard–Stratonovich 变换):
  • 高斯变换进行转化(也称为 Weierstrass 变换):

配分函数对应第二种情形,变换后结果为:

由此高维求和转化为高维的非高斯积分,可采用 Laplace 近似:积分主要由 $\Phi(\mathbf{x})$ 最大值附近的部分贡献。

与前式对比可知,

这里的鞍点近似(Laplace 近似)在对 $\mathbf{x}$ 的积分中将 $\mathbf{x}$ 设为常数,得到了与之前朴素平均场一样的结果。配分函数和概率分布也表示为变量分离的形式:

乍一看我们并没有得到新的发现。然而当相互作用变得比二次型复杂许多时,场论方法仍能简洁地分离变量,且没有变分平均场方法与之对应。常用方法是 Hubbard-Stratonovich 变换δ-函数变换,都采用了傅里叶积分的形式。

此时可用鞍点近似求解。场论方法还有其他优点,如可将 $\Phi(\mathbf{x})$ 在稳定点附近展开,从而系统性地提高近似的准确度;也还常用于生成泛函(或路径积分)法,处理动态问题。

2.5 平均场近似何时准确?

回忆 Callen 方程,朴素平均场近似忽略了局域场 $h_i$ 的涨落

$h_i$ 是一系列随机变量的和,故当随机变量数量很大时,$h_i$ 的涨落很小,平均场近似准确。主要有两种极端情况下成立:

Case I

所有 $J_{ij}$ 均相等且大于0。为使局域场 $h_i$ 随 $N$ 增加以 $\mathcal{O}(1)$ 增长,$J_{ij}=J_0/ N>0.$

考虑此时单个自旋的局域场 $h_i$,自旋 $s_j$ 的贡献为 $J_{ij}s_j$,它的涨落

故 $N$ 个自旋对局域场的总贡献的涨落在 $\mathcal{O}(1/N)$ 量级,$N\to\infty$ 时可以忽略。

也可通过场论方法作更严格的证明:

然而实际应用中多数情况是 $J_{ij}$ 与观测数据有关,会存在强烈变化。因此考虑 $J_{ij}$ 为随机变量的情形就显得重要。

Case II

$J_{ij}$ 选为一组零均值、互相独立的随机变量。为简单起见令外场 $\theta_i=0$,则局域场 $h_i$ 是 $N$ 个正负出现概率大致相等的随机变量之和,为使局域场 $h_i$ 随 $N$ 增加以 $\mathcal{O}(1)$ 增长,$\sigma(J_{ij})=J_0/ \sqrt{N}>0.$

此时若忽略自旋间的统计相关性,$\operatorname{Var}[h_i] \sim N\sigma^2(J_{ij}) \sim \mathcal{O}(1)$,朴素平均场近似不准确。下一节中介绍的 TAP 平均场理论 通过加入修正项,可以使此情形下,$N\to\infty$ 时平均场解准确。

事实上只要满足相互作用 $J_{ij}$ 范围无限无穷维,都可以构建出精确的平均场理论。这两个概念都和空间有关。范围无限指的是空间距离

时 $J_{ij}$ 不衰减到0;无穷维下相互作用范围有限时也能和无穷个近邻自旋作用。这两种情形下随机变量(自旋)间的相关性都足够弱,可用平均场理论精确处理。

2.6 TAP 方程 I - 空穴法

TAP 平均场方程根据对 Sherrington-Kirkpatrick (SK) 自旋玻璃模型推导出平均场理论的三位科学家 D.J. Thouless, P.W. Anderson 和 R.G. Palmer 命名。Sherrington-Kirkpatrick (SK) 自旋玻璃模型中,$J_{ij}$ 为一组零均值、互相独立的高斯随机变量,方差为 $\sigma^2(J_{ij})=J_0^2/N$。

M. Mézard 和 G. Parisi 提出的空穴法Bethe 近似有很大关系。Bethe 近似是对树状(无环)结构的精确平均场理论:

每个自旋的边缘分布

$p(\mathbf{s} \backslash s_{i})$ 为 $N-1$ 个自旋 $\mathbf{s} \backslash s_{i}$ 的联合分布。若用非零 $J_{ij}$ 连接各自旋节点形成的图无环,则移去 $s_i$ 并切断与它的所有联系后,其余自旋应完全独立:

$p_{j \backslash i}(s_{j})$ 表示除 $s_i$ 外各自旋的边缘分布。此时已有了边缘分布 $p_{i}(s_{i})$ 组成的自洽场方程组,可以通过迭代地计算“消息(messages)

求解方程组。这种方法被称为信念传播(Belief Propagation, BP)算法,是消息传递(Message Passing)算法的一种。BP 方法可以推导出 TAP 方程


空穴法利用了 SK 模型的全连接特性。由于 $s_i$ 对其他自旋 $s_j$ 的依赖关系只通过场 $h_i=\sum_j J_{ij} s_j$,考虑 $h_i$ 和 $s_i$ 的联合分布:

其中 $h_i$ 的空穴分布

由此得到

2.7 TAP 方程 II - Plefka 展开

Under construction…

2.8 TAP 方程 III - 模型以外

Under construction…

2.9 展望

Under construction…