深度学习的生物物理化学原理 - Notes Project Overview
引言
深度平均场理论是近年来 Google Brain 研究人员提出的,用于解释深度神经网络的表达能力、训练技巧和模型架构的理论框架,其根源可追溯到日本学者甘利俊一(Shun-ichi Amari) 上世纪70年代提出的统计神经动力学1。在80年代 Hopfield 网络提出之后,H. Sompolinsky, A. Crisanti 和 H. J. Sommers 等人将其发展为自旋玻璃模型所衍生无向神经网络的动态平均场理论2,研究网络运行时一般性的动力学性质,并描述了有序-混沌相变。由于无向神经网络的时间演化、动态问题类似于有向神经网络的层间传递、深度问题,S. S. Schoenholz, S. Ganguli, J. Pennington 和 J. Sohl-Dickstein 等人重新以现代的有向(前馈)随机神经网络结构进行了推导,他们的一系列理论工作已能一定程度上为网络结构和训练技巧的设计提供指导。
笔记的这一章节架构如下:
Part I - 理论基础
Part II - 训练技巧
Part III - 网络结构
4.1 动态平均场理论回顾
4.1.1 模型建立
甘利俊一(Shun-ichi Amari) 建立的模型中,$N$ 个神经元由连续变量 ${s_i(t)\in[-1,1]},\,\,i=1,…,N$ 描述(对应自旋),“突触矩阵” $\mathbf{W}$(对应自旋的耦合常数)表达它们的相互作用,阈值 $-\mathbf{b}$ 相当于外场。$W _ {ij}\sim\mathcal{N}(w_0/N,\sigma _ w^2/N),b _ i\sim\mathcal{N}(b_0,\sigma _ b^2)$ 选为一组独立的高斯随机变量。每一时刻 $t$ 神经元的状态 $x_i(t)$ 由局域场 $h_i(t)$ 决定:
其中 $\phi(h)$ 为非线性激活函数,可选为任意 S型函数,如 $\phi(h)=\tanh (gh)$,需满足 $\phi(\pm\infty)=\pm 1, \phi(-h)=-\phi(h), \phi’(h)>0.$
$g$ 为非线性指数,可以类比 $\beta=1/k_\mathrm{B}T$:$g\to 0, T\to\infty$ 时 $\phi(h)\sim gh$;$g\to \infty,T\to 0$ 时 $\phi(h)\to \pm 1.$
时间演化的动力学方程为
若将其移项,可以看出它和前馈神经网络的关系:
实际上这也是无向神经网络与有向神经网络的差别:无向神经网络的时间演化、动态问题类似于有向神经网络的层间传递、深度问题。从这一点看自旋玻璃类无向神经网络可以理解成权重相同的无限层有向神经网络。
我们知道平衡态时序参量有定值。因此考察动态(或深度)问题的一个角度是将平衡态作为序参量演化的一个稳定不动点。
事实上动态问题比静态(平衡态)问题复杂许多。如仅当 $J _ {ij}=J _ {ji}$ 时动力学才代表向平衡态的弛豫过程;且在上一章中提到,由于各态历经破缺,有时无法弛豫到平衡态,动力学相变温度常高于热力学相变温度,详细可参考上一章自旋玻璃理论以及动态平均场理论。
深度平均场理论也采用了这种思路,关注前向传播中序参量的变化。在自旋玻璃理论15中,序参量是重叠度(overlap)矩阵:
自重叠度(self-overlap) $q _ {aa}, q _ {\alpha \alpha}$ 衡量构型、复本 $a$ 或态 $\alpha$ 的大小,交叉项 $q _ {ab}, q _ {\alpha \beta}$ 衡量构型、复本 $a,b$ 或态 $\alpha,\beta$ 间的相似度。自旋玻璃热力学的复本方法(replica method) 中,对随机的相互作用分布做平均时,解耦了不同自旋,但关联了不同复本。由此在不同温度下有复本对称(replica symmetric, RS)平均场解(交叉项 $q _ {ab}$ 全部相等,但不同于 $q _ {aa}$)、一阶复本对称破缺(1RSB)平均场解(交叉项 $q _ {ab}$ 有两个取值 $q _ 0,q _ 1$,类似于动力系统的“双稳”)等。
类似地,网络的不同输入可以类比自旋玻璃的不同复本(replicas) ,对网络的每一层有
我们将在 4.2 节讨论深度平均场理论时继续展开。
4.1.2 Amari 解
Amari 最初提出的解是朴素平均场近似的结果,只能描述简单的动态性质。
- 假设1(平均场近似):$N$ 足够大时,由于受前一时刻大量自旋的影响,由中心极限定理,所有 $h _ {i}(t)$ 相互独立且满足高斯分布:$h _ {i}(t)\sim\mathcal{N}(m(t),q(t))$。
由此所有 $h _ i(t)$ 的函数 $f(h)$ 对应的宏观量可通过对 $h _ i(t)$ 高斯分布的积分得到:
时间演化方程对 $t$ 积分可得,
时间足够长时,最后一项可以忽略,定义
- 假设2(时间相关假设):对足够大的 $N,t$,
对时间演化方程做平均可以得到序参量的演化方程:
不动点处有
这已经是后文深度平均场理论的主要方法之一。不同的是,深度平均场理论中,随机初始化一般会使 $w _ 0=b _ 0=0$,即将表达式简化为
这样自动满足了
已经解决了单一输入(没有复本)时不动点稳定性(4.2.1)的问题,要解决的是两输入(复本间)的相关问题(4.2.2)。而在 $w _ 0,b _ 0\neq 0$ 时,Amari 认为,网络的稳定性首先应由单一输入(没有复本)时,不动点的稳定性表示。
4.1.3 动态平均场方程推导
太长不看版:Amari 解已经能描述简单的动态性质,深度平均场理论也主要使用了类似她的推导方法,若本节太难可直接跳至 4.2。动态平均场理论对时间相关的推导更严密一些,并且考虑了不同时间下不同复本(不同输入)间的相关性。
方程中包含的随机性来源于随机的耦合常数 $J_{ij}$。动态问题的统计性质也就是随机的 $J_{ij}$ 下运行路径 $\mathbf{h}(t)$ 的概率分布。然而概率分布往往无法直接计算,只能通过近似方法计算它的矩(moment)。关于生成泛函(路径积分)方法的简介可以参考16:
- 随机变量概率分布的矩可以通过矩生成函数(对应配分函数)对共轭变量不断求导得到,
- 类似地,随机过程概率分布的矩可以通过生成泛函对共轭变量不断求导得到。
生成泛函需要对 $J_{ij}$ 及所有可能的路径 $\mathbf{h}(t)$ 做泛函积分,也就是说 $D \mathbf{h}=D[\mathbf{h}(t)].$ 引入 $\hat{\mathbf{h}}(t)$ 通过 $\delta$ 函数的傅里叶变换以满足时间演化方程,引入共轭场 $\mathbf{l}(t)$ 和 $\hat{\mathbf{l}}(t)$,定义生成泛函:
它的作用相当于平衡态统计物理中的配分函数,包含了系统演化的所有信息。动态问题中最重要的矩是时间关联函数和响应函数:
4.1.4 有序—混沌相变
4.2 深度平均场:理论假设与高斯过程视角
回到对前馈神经网络的讨论。
- 网络共有 $D+1$ 层神经元 $\mathbf{x}^0,…,\mathbf{x}^D$,第 $l$ 层的宽度为 $N_l$,
- $D$ 层权重 $\mathbf{W}^1,…,\mathbf{W}^D$ 和偏置 $\mathbf{b}^1,…,\mathbf{b}^D$。$\mathbf{x}^l, \mathbf{b}^l \in\mathbb{R}^{N_l},\mathbf{W}^l \in\mathbb{R}^{N_l\times N_{l-1}}.$
- 对于随机初始化的神经网络,$\mathbf{W} _ {ij}^l,\mathbf{b} _ {i}^l$ 为独立的零均值高斯随机变量,方差设定使得 $l-1$ 层神经元对 $l$ 层神经元场的贡献为 $\mathcal{O}(1)$,且选定后不再变化:
- 前向传播的动力学为
深度平均场理论直接关注了前向传播中序参量的变化。我们前面提到,网络的不同输入类似于自旋玻璃的不同复本(replicas) ,网络的每一层的“序参量”为
4.2.1 单一输入与迭代长度映射 $\mathcal{V}(q_{aa})$
平均场近似认为,$N _ {l-1}$ 很大时,$\mathbf{h} _ {i}^{l}=\sum _ {j} \mathbf{W} _ {i j}^{l} \phi(\mathbf{h} _ {j}^{l-1})+\mathbf{b} _ {i}^{l}$ 是许多独立随机变量的和,由中心极限定理,服从高斯分布,可用对高斯随机变量 $z$ 的平均取代对 $N_{l-1}$ 个神经元的平均。方差随着前向传播而传递:
函数 $\mathcal{V}(q)$ 为迭代的长度映射,对单调的非线性激活函数 $\phi$ 是单调递增的凹函数。$q^{l}=\mathcal{V}(q^{l-1}\vert\sigma _ w,\sigma _ b)$ 与对角线 $q^{l}=q^{l-1}$ 相交于不动点 $q^*(\sigma _ w,\sigma _ b).$ 不动点有以下几种情形:
- $\sigma _ b =0, \sigma _ w <1$ 时,唯一不动点为 $q^*=0$,前向传播中 $q$ 衰减为0.
- $\sigma _ b =0, \sigma _ w >1$ 时,$q^*=0$ 为不稳定不动点,同时有另一稳定不动点 $q^ * >0.$
- $\sigma _ b >0$ 时,总有稳定不动点 $q^ * >0.$
4.2.2 两个输入与迭代相关映射 $\mathcal{C}(c _ {12},q _ {11},q _ {12})$
当有两个输入 $\mathbf{x}^{0,1}, \mathbf{x}^{0,2}$ 时,$2\times2$ 的重叠矩阵
随前向传播变化,平均场近似下,$N _ {l-1}$ 很大时,$\mathbf{h} _ {i}^{l}(\mathbf{x}^{0, a})$ 和 $\mathbf{h} _ {i}^{l}(\mathbf{x}^{0, b})$ 的联合分布是许多独立随机变量的和,由中心极限定理,服从协方差为 $q _ {ab}^l$ 的二维高斯分布,协方差矩阵随着前向传播而传递:
两个输入点在前向传播中的变化可以通过相关系数 $c _ {12}^l$ 跟踪,$c _ {12}^l$ 在前向传播中逐渐收敛到不动点 $c^ * (\sigma _ w,\sigma _ b).$ 由于 $q _ {11}, q _ {22}$ 迅速收敛到不动点 $q^ * (\sigma _ w,\sigma _ b)$,故可在相关系数的前向传播迭代中用 $q^ *$ 代替 $q _ {11}, q _ {22}$:
容易验证至少有一不动点 $c^ * (\sigma _ w,\sigma _ b)=1.$ 不动点的稳定性可通过计算函数 $\mathcal{C}$ 在 $c^ *$ 的斜率 $\chi _ 1$:
推导利用了高斯随机变量的分部积分性质:
- $\chi _ 1<1$,则函数 $\mathcal{C}$ 在对角线上方,$c^ * =1$ 为稳定不动点,两个输入在前向传播过程中越来越相似;
- $\chi _ 1>1$,则函数 $\mathcal{C}$ 在 $c=1$ 附近在对角线下方,$c^ * =1$ 为不稳定不动点,两个输入在前向传播过程中逐渐分开。
由此 $\chi _ 1$ 可以被理解为“伸缩系数”。定量计算方法是考虑已达不动点的 $\mathbf{h}^l$ 对 $\mathbf{h}^{l-1}$ 的雅各比矩阵 $\mathbf{J} _ {i j}^{l}=\partial \mathbf{h} _ i^l / \partial \mathbf{h} _ j^{l-1}=\mathbf{W} _ {i j}^{l} \phi^{\prime}(\mathbf{h} _ {j}^{l-1})$,前向传播中不动点附近的微扰 $\mathbf{h}^{l-1}+\mathbf{u}$ 会变为 $\mathbf{h}^{l}+\mathbf{J} \mathbf{u}$. 微扰放大的倍数 $\lVert\mathbf{J u}\rVert _ {2}^{2} / \lVert\mathbf{u}\rVert _ {2}^{2}$ 对微扰 $\mathbf{u}$,随机矩阵 $\mathbf{W}$,和在 $i=1,…,N_l$ 近似高斯分布的 $\mathbf{h} _ i^l$ 平均后即为 $\chi _ 1$。运用雅各比矩阵的传递性质,可以推广为之后的动态等距概念。
4.2.3 有序—混沌相变
参考文献
-
S. I. Amari. Characteristics of Random Nets of Analog Neuron-Like Elements. IEEE Trans. Syst. Man Cybern. 2, 643 (1972). ↩
-
H. Sompolinsky, A. Crisanti, and H. J. Sommers. Chaos in random neural networks. Physical Review Letters, 61(3): 259, 1988. ↩ ↩2
-
Jaehoon Lee, Yasaman Bahri, Roman Novak, Samuel S. Schoenholz, Jeffrey Pennington, and Jascha Sohl-Dickstein. Deep neural networks as Gaussian processes. International Conference on Learning Representations, 2018. ↩
-
Ben Poole, Subhaneil Lahiri, Maithreyi Raghu, Jascha Sohl-Dickstein, and Surya Ganguli. Exponential expressivity in deep neural networks through transient chaos. In Advances In Neural Information Processing Systems, pages 3360–3368, 2016. ↩
-
Samuel S. Schoenholz, Justin Gilmer, Surya Ganguli, and Jascha Sohl-Dickstein. Deep Information Propagation. International Conference on Learning Representations, 2017. ↩
-
Jeffrey Pennington, Samuel S. Schoenholz, and Surya Ganguli. Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice. Advances in Neural Information Processing Systems, 2017. ↩
-
Jeffrey Pennington, Samuel S. Schoenholz, and Surya Ganguli. The emergence of spectral universality in deep networks. International Conference on Artificial Intelligence and Statistics (AISTATS), 2018. ↩
-
Greg Yang, and Samuel S. Schoenholz. Mean field residual networks: On the edge of chaos. In Advances in Neural Information Processing Systems, 2017. ↩
-
Greg Yang and Samuel S. Schoenholz. Deep mean field theory: Layerwise variance and width variation as methods to control gradient explosion. International Conference on Learning Representations, 2018. ↩
-
Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, and Samuel S. Schoenholz. A mean field theory of batch normalization. International Conference on Learning Representations, 2019. ↩
-
Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel S. Schoenholz, and Jeffrey Pennington. Dynamical isometry and a mean field theory of CNNs: How to train 10,000-layer vanilla convolutional neural networks. International Conference on Learning Representations, 2018. ↩
-
Minmin Chen, Jeffrey Pennington, and Samuel S. Schoenholz. Dynamical isometry and a mean field theory of RNNs: Gating enables signal propagation in recurrent neural networks. International Conference on Learning Representations, 2018. ↩
-
Dar Gilboa, Bo Chang, Minmin Chen, Greg Yang, Samuel S. Schoenholz, Ed H. Chi, and Jeffrey Pennington. Dynamical isometry and a mean field theory of LSTMs and GRUs. arXiv preprint arXiv:1901.08987, 2019. ↩
-
Tatsuro Kawamoto, and Masashi Tsubaki. Mean-field theory of graph neural networks in graph partitioning. arXiv preprint arXiv:1810.11908, 2018. ↩
-
Tommaso Castellani, and Andrea Cavagna. Spin-glass theory for pedestrians. J. Stat. Phys. (2005) P05012. DOI: 10.1088/1742-5468/2005/05/P05012. ↩
-
Chow C, Buice M (2015) Path integral methods for stochastic differential equations. The Journal of Mathematical Neuroscience 5(1):8, DOI: 10.1186/s13408-015-0018-5. ↩