用多模型控制抽样和大都市黑斯廷斯法减轻贝叶斯推断中的不确定性


贝叶斯推理是一种统计方法,用于根据新的证据更新先前的信念,这是一种极其有用的技术,有无数的应用。概率的不确定性很难量化,这是贝叶斯推理面临的挑战之一,但有一个解决方案令人兴奋,因为它具有跨学科的起源和优雅的思想链。

如果你是一名统计学家或数据科学家,你可能知道以下基本知识Bayesian inference。如果你只是在学习,数学思想是根据测量数据更新一些参数的概率。所谓的后验信念——更新概率——可以定义为观察新数据的可能性乘以前验信念,再除以观察模型数据的总概率,其中前验信念被边缘化。这可以写成下面的公式,其中θ是先验信念,数据是新的证据:

Equaltion_1.jpg

等式1

具体来说,想象一个孩子每周7天中有4天晚饭后吃甜点。那是P(θ),先验信念。在她吃甜点的晚上,她吃了四个晚上中的两个晚上。那是P数据|θ),新的证据。但是她一周吃7晚中的3晚。那是P数据),新的证据与先前的信念被边缘化。所以,如果我们执行这个公式,后面的信念是(4/7 * 2/4) / 3/7,如果小女孩吃完了她的晚餐,她有2/3的可能得到甜点。(不公!(

让贝叶斯推理变得困难的一件事是,分母中的积分,也称为normalizing constant,没有封闭的解析形式。它必须用数字来近似,这很难做到。你在没有任何证据的情况下,从理论上估计观察某事物的概率。

这就是在非常不同的领域中开发的一些技术的开发之处:马氏链、蒙特卡罗方法和大都市-黑斯廷斯算法。

Markov Chains是众多领域中非常流行的随机过程建模设备。基本思想是,您可以使用转换矩阵对随机过程建模,其中过程在某个状态空间随时间从一种状态转换到另一种状态。转移矩阵列出了这些状态转移的概率,其中转移是无记忆的,即从一个状态转移到另一个状态的概率仅取决于进程正在转移的状态(而不是进程到达该状态所用的状态序列)。这样做的影响是,当链在足够长的过渡时期内演化时,不管过程从哪个初始状态开始,底层状态的分布都稳定在一个稳定的分布中。它以简单的形式表示在这个公式中,其中π是平稳分布τ是概率的转移矩阵。

Equaltion_2.jpg

等式2

Monte Carlo方法也广泛应用于各个领域。这些方法允许人们使用从潜在概率分布中抽取的样本评估的函数的样本平均值来近似随机变量的函数的期望值。ν是从概率分布中抽取的样本数,ρ

Equaltion_3.jpg

等式3

事实证明,在一些非常普遍的假设下,对于每一个概率分布,都存在一个马尔可夫链,这个分布就是它的平稳分布。那么,如果我们假设我们难以计算的后验信念(它是一个条件概率分布)是某个(未知的)马尔可夫链的平稳分布呢?如果我们可以反转马尔可夫链,即从给定平稳分布的链中得到样本,并假设平稳分布是我们的后验分布,那么我们就有了一种“神奇”的方法来对后验分布进行采样,而不需要封闭的形式!大都市-黑斯廷斯算法允许我们这样做。它允许我们在等式1中自动计算转移矩阵,只要在等式2中容易计算分子项。不需要归一化常数。随着算法的迭代,它的迭代从我们的后验中产生样本。

这有什么帮助?当我们对后验样本进行采样时,我们可以很容易地执行以下任一操作:

  • 估计posterior probability例如:通过使用这些样本构建样本直方图。这个直方图近似于潜在概率分布的密度。
  • 计算Bayesian predictions。使用等式2中的蒙特卡洛规则,通过在从后验样本中采样的参数值处计算的预测的样本平均值,来近似整个模型参数空间中新数据点的预测期望值。

Monte Carlo第二次世界大战期间,一组物理学家在洛斯阿拉莫斯开发了这种方法Manhattan Project。的Metropolis-Hastings算法随后于20世纪50年代在洛斯阿拉莫斯由Nicolas Metropolis研究统计力学中的多体问题,后来被W. Hastings20世纪70年代。随着20世纪80年代计算能力的出现,在接下来的十年里,这些算法在从计算生物学到金融和商业等领域的应用迅速激增,这些领域的问题已经被证明无法通过其他机制解决。最初在一个领域发展了几十年的想法在许多年后在不同的领域做出了贡献——通过exaptation