基于 MCMC方法的图像还原模型
1.天津商业大学统计系 300134
摘要:随着信息化社会的发展,监控设施的存在让犯罪份子无处遁形,但由于一些不可控因素,经常导致监控照片模糊不清,图像还原技术即是处理这类问题的关键。本文建立了基于MCMC[1], [2]方法的图像还原模型,首先给定合理的先验分布,采用马尔科夫随机域上的MCMC抽样方法,得到来自后验分布的像素样本,后验像素样本能够有效的估计真实图像,从而实现图像还原的目的。
关键词:马尔科夫随机域;MCMC;图像还原
[项目编号]JDS958 [项目名称]伴你学数统——大数据和统计学结合的创新应用实践
1引言
本文建立了基于马尔科夫随机域上的MCMC抽样模型,可以对模糊图像进行还原。模型首先假定合理的先验分布,得到了吉布斯抽样需要的满条件概率,进而得到了来自后验分布的像素样本,通过对样本平均值的计算,实现了模糊图像的还原。在实证应用中,模型对模糊图像的还原效果很好。
2 图像推断方法综述
在本模型中,我们为参考空间的随机变量指定一个特定的概率分布。对于特定的图像来说,就是对每一个像素的取值指定一个概率分布。马尔科夫随机域可以应用于很多格子型的结构,如正规的长方形,六角形和不正规的网格结构。Besag关于空间统计和图像分析中的马尔科夫随机域投稿了大量重要的经典文章[4] ,[5]。参考文献[5]也给出了马尔科夫随机域的全面介绍。近10年来,空间统计和图像推断方法的发展主要集中在算法的效率问题上,其中Swendsen-Wang算法[6],以及完美抽样算法是其中的重要成果。
在图像还原的过程中,我们主要考虑马尔科夫随机域在正规矩形格子中的应用。例如:一张照片的基本单位是像素,把每个像素看做一个小格子,于是一张相片可以看做是由 个格子拼成的矩形,第 个像素(即格子)的值记为 , ,其中 为像素的总数。我们关注二元随机域,即 只能取0或1。当然, 的取值可以推广到取两个以上的离散值或是连续的情况。
定义 为第 个像素的所有邻域,记 为像素 的邻域像素的值的集合。注意第 个像素不在 中。在长方形格子中,第 个像素的一阶邻域为其垂直方向和水平方向的像素集合,二阶邻域还包含对角线方向上的像素。本模型考虑的是一阶邻域。
假定第 个像素的值 是随机变量 的实现,则我们可以定义一个局部依赖的马尔科夫随机域:规定在给定其他像素 的条件下的 的分布仅依赖于相邻像素。因此,当 时,即第 个像素周围的像素值都确定的情况下,我们有
,
对于 (1)
假定每个像素在等于0或1时有非零概率,则后面定义的条件分布(即公式(2))有定义。
Hammersley-Clifford定理[4]证明上面的条件分布可以使得X的联合分布成为一个规范化的常数。在我们考虑的离散二元状态空间中,这个规范化常数为 取遍状态空间的像素的和。举个例子,考虑40×40的小图像,在规范化常数的计算中仍需要计算 个项。这是一个天文数字,但应用基于贝叶斯推断的MCMC方法,我们可以得到分布 的抽样,进而研究分布 ,做出图像的推断。
3 建立模型
沿用前面的说明,定义 为第 个像素的值,这里 为第 个像素的真实值,将 看做一个随机变量,令 为第 个像素的观测值。这样,照片上的所有像素就构成了一个随机向量 , 是观测数据。在图像分析领域中, 为退化的图像,而 为未知的真实图像。对于二元随机域: 表明第 个像素是空白的, 表明第 个像素存在一个值。
有几个基本假设是模型的基础。首先,假设在给定真实像素值的条件下观测是相互独立的,即当 时, 的联合条件密度为
(2)
其中 为给定真实值的条件下,像素 的观测数据的密度。
本模型中的参数为 ,我们的目的就是要估计这些真实值,已知条件为 。假设参数的先验分布为 ,吉布斯抽样的目标是从 的后验密度中获得抽样:
(3)
X的先验分布为
(4)
其中, 表示像素 的邻域中的所有的像素 , 为关于0对称的函数。考虑一个简单的先验密度和似然函数
(5)
(6)
上式中的 ,对于特定的问题,可以对 的值做敏感度分析,以确定它们的最佳数值。另外,对于先验密度和似然函数的选取,通常选择指数族分布[1],因为指数族分布会使得先验分布和后验分布属于同一种分布(即共轭分布),而且指数族分布在大样本数据中的应用也是相当广泛的,已经经受住了相当的考验,实际操作非常稳定[4]。
有了上面的假定,立即可以证明一元条件分布:
服从的是贝努利分布,于是吉布斯抽样的第t+1次循环中,第 个像素等于1的概率为
(7)
4实证分析
在实证环节阶段,我们将还原一个模糊的车牌图像。该图像由153×409个像素格子组成,图像存储格式为bmp格式即可。像素值为1时,显示红色,像素值为0时,显示黄色。真实的车辆牌照号码为:津JVC520。
我们随机改变真实图像中50%的像素的值,即随机把50%像素的值从0变为1或者从1变为0,这样会得到非常模糊不清的“观测图像”,
应用基于马尔科夫随机域上的吉布斯抽样方法,得到以下算法:
-
做100次循环,每次循环更新图像上所有 像素点的取值;
-
第t+1次循环中,第 个像素等于1的概率为:
3.100次循环后,计算每个像素在100次循环中的平均值,作为该像素的估计值。
用像素估计值如下图所示,估计值的准确率达到了82%。可见,除了“津”字不太清晰,JVC520的轮廓清晰可见。
图1:模型估计的图像
5 模型的不足与待研究问题
实证的例子处理的是153×409个像素的图片,模型在R语言环境下实现,算法运行比较慢(程序处理需要两分钟左右),其效率有待提高。Swendsen-Wang算法是目前已知的收敛最快的算法之一,我们会在后续文章中给出Swendsen-Wang算法与本文算法的比较研究。
参考文献
[1] Gentle, James E. Computational Statistics[M]. Springer, 2009.
[2] Ross.Simulation[M].Elsevier Pte Ltd, 2013.
[3] 茆诗松,程依明. 概率论与数理统计[M]. 高等教育出版社, 2011.
[4] J.Besag. On the statistical analysis of dirty picture. Journal of the Royal Statistical Society, Series B, 48:259-302, 1986.
[5] J.Besag. Spatial interaction and the statistical analysis of lattice systems. Journal of the Royal Statistical Society, Series B,36:192-236,1974.
本站部分资源来自网络,如有侵权请联系删除!点击联系