2.1 引言
平均场方法通过保留随机变量间的相互作用但忽略特定的相关性,从而近似计算高维分布的求和或积分。本章介绍三种方法:
- 变分平均场(朴素平均场):采用变量分离近似,变分求解
- 场论方法:引入辅助变量,在复平面用鞍点近似积分求解
- Thouless-Anderson-Palmer (TAP) 方法,从空穴法和 Plefka 展开两个角度理解
以下以 Ising 模型(对应机器学习中的 Boltzmann 机)为例。
- 随机向量 $\mathbf{s}=(s_1,\ldots,s_N),s_i=\pm 1$ 表示自旋。
- 哈密顿量
- 配分函数
- 真实分布
2.2 变分平均场(朴素平均场)
变分方法以分布 $q(\mathbf{s})$ 近似真实分布 $p(\mathbf{s})$。$q(\mathbf{s})$ 通常从一族易处理的分布中选取,可用 KL散度 衡量它与真实分布的距离:
将 $p(\mathbf{s})$ 表达式代入可得
其中:
- 变分能量
- 分布 $q$ 的熵
- 变分自由能
等号仅当 $q(\mathbf{s})=p(\mathbf{s})$ 时成立。故 $F(q)$ 取最小值时近似最好,可通过变分实现:
这一方法在机器学习的变分推断(Variational Inference) 中被广泛用于对目标分布的近似,变分自由能在机器学习中被称为变分下界(Variational Lower Bound, V-LB) 或证据下界(Evidence Lower Bound, ELBO)。
一种最简单的 $q$ 选法是忽略不同自旋间的统计相关性,即朴素平均场近似:
其中 $q_i(s_i)$ 随 $s_i$ 的期望 $m_i = \mathbb{E}_q [s_i]$ 在$[0,1]$ 间线性变化:
将 $q(\mathbf{s})$ 的表达式代入得
由变分条件最终推出 $N$ 个方程组成的自洽场方程组:
方程组可在 $N$ 的多项式时间内得出数值解。
也可以求出实际分布时 $s_i$ 的期望遵循的方程组(以下 $\mathbf{s}\backslash s_i$ 表示除 $s_i$ 外 $N-1$ 个自旋):
可以看出平均场近似将涨落的场 $h_i=\sum_j J_{ij}s_j+\theta_i$ 用“平均场” $\mathbb{E} _ q[h _ i]=\sum _ j J _ {ij}\mathbb{E} _ q[s _ j]+\theta_i$ 代替了。
2.3 线性响应校正
虽然变量分离的 $q(\mathbf{s})$ 完全忽略了随机变量间的相关性,但仍可近似计算它们的协方差:
两侧对 $\theta_j$ 求导得
若平均场近似足够合理,则可近似得到协方差:
这种对协方差的近似已用于 Boltzmann 机学习 和 ICA(独立成分分析)。
2.4 场论方法
另一个思路是,积分的近似比求和的近似更容易计算准确。可将对 $s_i$ 求期望转变为对辅助变量求积分,再采用 Laplace 近似或鞍点近似。对高斯形式的函数主要方法有两种,视指数的正负号而定。证明可通过配方(略):
- 用高斯函数的傅里叶变换进行转化(也称为 Hubbard–Stratonovich 变换):
- 用高斯变换进行转化(也称为 Weierstrass 变换):
配分函数对应第二种情形,变换后结果为:
由此高维求和转化为高维的非高斯积分,可采用 Laplace 近似:积分主要由 $\Phi(\mathbf{x})$ 最大值附近的部分贡献。
与前式对比可知,
这里的鞍点近似(Laplace 近似)在对 $\mathbf{x}$ 的积分中将 $\mathbf{x}$ 设为常数,得到了与之前朴素平均场一样的结果。配分函数和概率分布也表示为变量分离的形式:
乍一看我们并没有得到新的发现。然而当相互作用变得比二次型复杂许多时,场论方法仍能简洁地分离变量,且没有变分平均场方法与之对应。常用方法是 Hubbard-Stratonovich 变换和 δ-函数变换,都采用了傅里叶积分的形式。
此时可用鞍点近似求解。场论方法还有其他优点,如可将 $\Phi(\mathbf{x})$ 在稳定点附近展开,从而系统性地提高近似的准确度;也还常用于生成泛函(或路径积分)法,处理动态问题。
2.5 平均场近似何时准确?
回忆 Callen 方程,朴素平均场近似忽略了局域场 $h_i$ 的涨落:
$h_i$ 是一系列随机变量的和,故当随机变量数量很大时,$h_i$ 的涨落很小,平均场近似准确。主要有两种极端情况下成立:
Case I
所有 $J_{ij}$ 均相等且大于0。为使局域场 $h_i$ 随 $N$ 增加以 $\mathcal{O}(1)$ 增长,$J_{ij}=J_0/ N>0.$
考虑此时单个自旋的局域场 $h_i$,自旋 $s_j$ 的贡献为 $J_{ij}s_j$,它的涨落
故 $N$ 个自旋对局域场的总贡献的涨落在 $\mathcal{O}(1/N)$ 量级,$N\to\infty$ 时可以忽略。
也可通过场论方法作更严格的证明:
然而实际应用中多数情况是 $J_{ij}$ 与观测数据有关,会存在强烈变化。因此考虑 $J_{ij}$ 为随机变量的情形就显得重要。
Case II
$J_{ij}$ 选为一组零均值、互相独立的随机变量。为简单起见令外场 $\theta_i=0$,则局域场 $h_i$ 是 $N$ 个正负出现概率大致相等的随机变量之和,为使局域场 $h_i$ 随 $N$ 增加以 $\mathcal{O}(1)$ 增长,$\sigma(J_{ij})=J_0/ \sqrt{N}>0.$
此时若忽略自旋间的统计相关性,$\operatorname{Var}[h_i] \sim N\sigma^2(J_{ij}) \sim \mathcal{O}(1)$,朴素平均场近似不准确。下一节中介绍的 TAP 平均场理论 通过加入修正项,可以使此情形下,$N\to\infty$ 时平均场解准确。
事实上只要满足相互作用 $J_{ij}$ 范围无限或无穷维,都可以构建出精确的平均场理论。这两个概念都和空间有关。范围无限指的是空间距离
时 $J_{ij}$ 不衰减到0;无穷维下相互作用范围有限时也能和无穷个近邻自旋作用。这两种情形下随机变量(自旋)间的相关性都足够弱,可用平均场理论精确处理。
2.6 TAP 方程 I - 空穴法
TAP 平均场方程根据对 Sherrington-Kirkpatrick (SK) 自旋玻璃模型推导出平均场理论的三位科学家 D.J. Thouless, P.W. Anderson 和 R.G. Palmer 命名。Sherrington-Kirkpatrick (SK) 自旋玻璃模型中,$J_{ij}$ 为一组零均值、互相独立的高斯随机变量,方差为 $\sigma^2(J_{ij})=J_0^2/N$。
M. Mézard 和 G. Parisi 提出的空穴法与 Bethe 近似有很大关系。Bethe 近似是对树状(无环)结构的精确平均场理论:
每个自旋的边缘分布
$p(\mathbf{s} \backslash s_{i})$ 为 $N-1$ 个自旋 $\mathbf{s} \backslash s_{i}$ 的联合分布。若用非零 $J_{ij}$ 连接各自旋节点形成的图无环,则移去 $s_i$ 并切断与它的所有联系后,其余自旋应完全独立:
$p_{j \backslash i}(s_{j})$ 表示除 $s_i$ 外各自旋的边缘分布。此时已有了边缘分布 $p_{i}(s_{i})$ 组成的自洽场方程组,可以通过迭代地计算“消息(messages)”
求解方程组。这种方法被称为信念传播(Belief Propagation, BP)算法,是消息传递(Message Passing)算法的一种。BP 方法可以推导出 TAP 方程。
空穴法利用了 SK 模型的全连接特性。由于 $s_i$ 对其他自旋 $s_j$ 的依赖关系只通过场 $h_i=\sum_j J_{ij} s_j$,考虑 $h_i$ 和 $s_i$ 的联合分布:
其中 $h_i$ 的空穴分布
由此得到
2.7 TAP 方程 II - Plefka 展开
Under construction…
2.8 TAP 方程 III - 模型以外
Under construction…
2.9 展望
Under construction…