原作者:Song GU* Jianguo WANG† Lili PAN† Shilei CHENG† Zheng MA* Mei XIE†
电子科技大学通信与信息工程学院
电子科技大学电子工程学院

—此为译者对本学院老师的论文进行的翻译,如有侵权请作者联系删除,谢谢
原文链接:http://ieeexplore.ieee/document/7532480/

抽要
由于在很多方面都有重要作用,在视频中进行图像和背景的分离成为了一个热门研究方向。分割的关键因素是构建时空相干性。以前的方法通常通过测量移动图像的一些特征来确定相干性,这一方法精度不高。在本文中,我们提出了一种新的测量相干性的方法,并提出了一种用于目标分割和跟踪的算法。每个图像都抽象出一些紧凑和考虑均匀的元素,将元素表示为字典模板的稀疏线性组合,通过对这些元素在深度学习中提取出其表示的固有低秩结构。约束表示的系数作为测量时空相干性的跟据。最后,在分段阶段采用具有实时更新能力的简单能量最小化方案,进行二进制对象的分割。同时,提出了一种自适应字典,以增强系统的鲁棒性。我们的方法优于现阶段对象分割的最先进的方法。
关键字 : 矩阵低秩,稀疏近似算法,前后景分割,能量最小化,图像

1.引言

前后景分割是从整个视频中自动提取目标对象的问题。其可以认为是每个帧中的二进制标记问题。这种分割具有广泛的应用,包括视频摘要压缩和人机交互。虽然许多工作[1,2,3,4,5,6]已经提出了这个热门研究课题,但是由于模糊,照明变化,遮挡等在视频中不确定变化量的影响,前后景分割仍然是一个具有挑战性的问题。
前后景分割中最重要的问题是如何在视频的每个帧中确定目标对象的精确形状。对此,Chockalingam团队[1]提出了基于水平集的分割方法,其在不同的阶段对目标图像进行运动估计和分割。缺点是,在一些具有挑战性的情况下,运动分析可能表现不佳,导致输入了一个不准确的分割过程。为了规避上述缺点,有人提出了基于图形的方法,将不同的关键点与空间和时间先验算法以一定的权重结合,准确和有效地推断分割层。一些分割方法[2,3,4,5,6]已经开发了许多提示函数来测量时空相干性。一个典型的例子是运动线索。然而,运动场中的一些噪声仍然会导致分割不准确。为了解决这个问题,Fathi团队 [7] 提出了一种半自动分割方法,以增强分割的鲁棒性。然而,其应用非常有限,因为它需要用户干预分割的过程。基于CNN(卷积神经网络)的移动物体检测器[8]的组合是近来最常见的方法。然而,精度仍然不令人满意,特别是在物体遮挡的情况下。
近年来,矩阵低秩与稀疏近似算法(LRS)已经广泛用于对象跟踪和图像分割。 Bao 团队 [9]通过使用模板集上的稀疏近似来对目标外观进行建模,以提高跟踪精度,从而开发出了1-跟踪器。 Zhang 团队[10]提出了一种新的基于粒子滤波器的跟踪算法将跟踪问题转换为LRS矩阵学习问题。在[11,12]中已经提出了一种有效的多尺度低秩算法来寻求最佳的超级像素对亲和度矩阵。然而,他们没有提出用于抽象目标对象的轮廓的方案。
受上述工作的启发,我们提出了一种高效率和有效的前后景分割方法:在能量最小化框架下利用LRS算法。具体来说,我们的贡献是三方面的。首先,我们将每个超像素视为一个元素,并基于先前的分割结果构建一个词条(参见图1)。第二,在分割中使用的特征线索是基于LRS学习的结果构建的,其可以精确地呈现对象的空间-时间相干性。第三,在许多挑战性情景的评估测试表明我们的方法的优越的性能。

2.图形表示

在我们提出的方案中,超像素表示被介绍为[13]。 它不仅降低了分段中的计算复杂性,而且还通过在每个超级像素内实施一致性使计算更加可靠。 考虑到超像素的不规则形状,我们采用L2ECM [14]进行图像表示。
给定图像,令x表示位置(x, y)处的任何点,原始梯度特征g (x) ∈ Rd

g(x)= [I(x), |Ix(x)|, |Iy(x)|, |Ixx(x)|, |Iyy(x)|]T (1)
其中| · |表示绝对值,I(x)表示位于图像中 x = (x, y)处的像素的强度,Ix(x)和Ixx(x)表示第一和二阶偏导数到x(即水平方向)。 Iy(x), Iyy(x)的定义类似。对于sth超像素,使用 Gs = {g(xi),i = 1,…, Ns}来表示其所有原始特征,其中xi是该超像素中的点,Ns是像素数 。 然后,计算观测Gs的协方差矩阵,并且使用Σs来表示。显然,Σs是大小为d × d的矩阵,其与Ns无关。
按照一般的L2ECM特征计算过程,通过矩阵对数将Σs转换为位于欧氏空间的log(Σs),并通过对log(Σs)进行半矢量化来构建每个超像素的L2ECM特征,如[ 14]。 用于图像中的任何超像素的L2ECM特征是具有h个元素的向量,其中h = d(d+1) .

3.超像素的LRS表示

我们提出的方案的关键思想之一就是假定目标在前一帧It−1中被良好地分割。另外,基于该先前帧能构造可变矩阵D。也就是说,D是h × Nt−1矩阵,其中Nt−1是It−1中超像素的数量。具体来说,我们重新排列D的列为D = Do, Db ,其中Do 和Db的每列分别表示与目标对象和背景模板相关联的超像素特征。受到[10,12,15]中提出的想法的启发,当前帧中的每个超像素可以通过以下的线性组合来表示:以矩阵形式为X = DZ +E,

图1 LRS表示
Zo和Zb分别是关于Do和Db的X的表示

其中X ∈ Rh×N,It为每列中的超像素特征, Nt为超像素数。因此,Z的每一列指示当前帧It中的每个超像素如何与D中的模板相关。E是由于噪声引起的误差。 图1表示出了LRS算法中关键思想。
由于视频中相邻帧的连续性,当前帧中的大多数超像素与前一帧中的超像素具有很强的相似性。 因此,期望矩阵Z是低秩矩阵。 此外,从上面的分析中,我们知道只需几个字典模板足以可靠地表示It中的一个超像素,因此Z应该是稀疏的。 通常,目标对象通常被噪声破坏,并且我们使用稀疏加性噪声对其进行建模[16]。 因为最小化矩阵的秩和稀疏是一个NP问题(多项式复杂程度的非确定性问题)[10],我们制定目标函数如下。

其中1· 1∗是核模子运算1· 11是矩阵的 算数1范数。 α和β是平衡两个项的重要性的参数。 我们在我们的实验中设置α =1和β =2。

3.1 LRS学习
解方程(2),采用传统的不精确增强域乘法器(IALM)算法[10,17]。 该方法具有二次收敛性质,并被广泛用于矩阵秩的最小化问题。 IALM是一种迭代方法,利用二次标志项来增强传统的拉格朗日函数。这允许每个未知变量以闭合形式更新。

3.2 自适应词典
为了准确跟踪,必须在后续帧中更新字典以更改目标特征。 这里,我们的初始字典包括从第一帧提取的对象和背景的模板。 根据[18]的想法,我们的字典存储过去H帧的跟踪和分割结果的信息。 此外,第一帧始终存储在我们的字典中。 实际上,我们通过用最新的记录替换最旧的记录来更新字典中除了第一帧的信息。

4.能源最小化的分类方法

从方程(2)的定义中,Z是测量超像素在当前帧和字典中的模板之间的相似性的亲和矩阵。在这个算法中,我们基于前后景分割的亲和矩阵构建一个明显的三角阵。

4.1 突出的特征点
给给定当前帧It中的第i个超像素,其作为对象区域的概率可以从作为亲和度矩阵Z的第i列的zi的值推导出。 zi由zo和 zb组成,其中zo表示当前第i个超像素与对象之间的相似度,zb表示第i个超像素与背景之间的相似度。 因此,属于当前帧中的对象的超像素i的可能性由下式给出

其中max(·)是返回向量的最大元素,Ti是归一化因子。 然后基于pi,i = 1, …, Nt构建基于区域的三角形。 在我们的工作中,我们建议使用pi作为显着提示。 此外,pi被分配给属于第i个超像素区域的当前帧中的每个像素。 最后,根据上述原理,我们获得当前帧It中所有像素的显着 映射函数fs(·)。

4.2 对象外观特征
对象外观特征提供每个像素是对象还是背景的证据。 在这个算法中,我们使用颜色分布在YUV色域空间中模拟对象特征为[3]。 然后,根据先前的颜色分布非参数地对前景和背景的概率进行建模。 此外,通过高斯过滤器平滑直方图进行卷积,以避免过度学习。 对象外观对于当前帧中的所有像素的似然函数fc(·)。基于先前的结构,对连续帧的分割对象进行自适应学习。

4.3分割的目标函数
利用显著的特征和对象外观信息,我们定义了下面的分割的目标函数。给定当前帧It, 令{It }和L = {£n}分别表示图像像素和相应标签的集合。 如果In属于前景,则标记£n = 1,否则为£n = 0。 显着对象分割可以表示为能量最小化问题

其中φc(£n) 和φs(£n)分别基于外观和突出线索计算与对象的像素关联,使得φc(£n) = −logfc(It ) 和 φs(£n) = −logfs(It )。 加权因子λc和λs满足λc + λs = 1, λc > 0和λs > 0。Ψ表示空间相邻像素之间的成对相互作用,并且其具有与[3]中的“空间能量”相同的形式化。 最优分割结果L∗可以通过最小化方程(4)。 根据[19],这种能量函数可以通过使用[20]中提出的min-cut / max-flow算法有效地最小化,完成图像的二进制分割。

4.4 实时权重调整
分割能量最小化中的参数是用于标记和显著特征点的加权因子λc和λs。 期望值随时间实时更新参数以适应场景和光照的改变。 我们对每个分割线索使用判别分析来测量其辨别性能。高性能的前景/背景识别的分割线索被分配了更高权重,使得它们可以对下一帧中的分割做出显著贡献。 在本文中,采用Fisher线性判别比[4,21]的算法,以更好适应通过λc和λc的线索调整权重,。

5.实验

为了评估我们提出的算法,我们进行了三个实验。 第一个实验证明了使用LRS表示作为时空相干性的测量的有效性。 第二个实验提供了我们的方法和四个最先进的方法在GT-SegTrack数据库[2]之间的定量比较。 最后一个实验给出了一些示例结果,证明了我们的方法对抗干扰的鲁棒性。

5.1 显着三态

图2 一个LRS学习的例子
图2(a)展现了一个降落伞下降的视频示例,并且改图像已经被一些超像素过分割。在本实验中,我们使用前一帧(It−1)和第一帧(I0)作为字典(H = 1)。方程(2)测量当前帧(图2(a))和像素之间的超像素的相似性。对应于图1中的超像素的Z中zi,列。图2(a)(由红色轮廓标记)绘制在图2中。图2(c)。zi的每个值表示标记的超像素和字典中的每个模板之间的相似性。我们观察到zo(红色)的大多数值大于zb(黑色)的值,因为标记的超像素属于目标对象。图2(d)示出了Z的相同列,但是通过低秩(LR)约束(β= 0)来计算。通过这个结果,我们无法区分对象与背景,因为它们的LRS表示值(红色和黑色)非常相似。图2(b)是由式(3)表示出的,它通过LRS约束清楚地区分了对象和背景。

5.2 定量比较
在GT-SegTrack数据库上,我们比较了我们的方法与四个最先进的分割方法:(1)基于水平集的跟踪器描述在[1],(2)使用基于KLT的时间链接描述的图形方法[2],(3)分割方法[6]和(4)离线分割方法[7]。 在每个测试视频中,目标轮廓的初始化数据由数据库提供的第一帧的地面实况。分割性能的定量比较如表1所示。
在大多数测试视频中,因为LRS的良好的辨别力,我们的方法的性能优于其他四种方法。 然而,它在某些视频中比离线方法[7]更差。在[7]中,分割精度在分割过程中通过几个手动注释增加。
公式(4)中的加权因子,即λc和λs,是我们的能量最小化框架中的关键问题。具有更强的区分对象和背景的能力的分段提示应该有更大的比例。
表1 我们的方法和[1,2,7,6]之间使用每帧的平均误差(像素)数的分割精度的定量比较。 评估序列的分辨率分别为:parachute (352×414), girl(320×400),monkeydog(240×320),birdfall(327×259),soldier(224×528), monkey-water (270×480)。

图3 两个权重作为时间函数的图形不同序列

图3表示出在不同序列中自适应的权重比。 在所有序列中,特征提示在大多数情况下具有更好的判别性能。然而,在猴-狗序列(从第27帧到第37帧)中,运动模糊导致特征提示性能变差,导致分割对象出现问题。这表明我们的在线权重策略可以根据不同的场景平稳地调整每个线索的权重值。
5.3 鲁棒性阻止
我们的自适应字典增强了系统的抗干扰的鲁棒性。 在这个实验中,我们检查了我们的方法,当目标被部分遮挡。 该字典由前一帧的结果(H = 1)更新。 图4显示了我们的方法的一些分割结果。由于字典维护对象的原始信息,所以当遮挡消失时,对象仍然可以被良好地分割。

6.结论
在本文中,我们提出了一种新的前后景分割方法。 超像素作为数据点,通过LRS学习计算亲和矩阵。 通过能量框架中的自适应权重线性组合由亲和矩阵构造突出线索和对象外观线索。 此外,还提出了在线字典更新策略,提高了系统的鲁棒性。
7. 参考文献

[1] Prakash Chockalingam, Nalin Pradeep, and Stan Birch- field,
“Adaptive fragments-based tracking of non-rigid objects using level
sets,” in International Conference on Computer Vision. IEEE, 2009, pp.
1530–1537.

[2] David Tsai, Matthew Flagg, Atsushi Nakazawa, and James M Rehg,
“Motion coherent tracking using multi- label mrf optimization,”
International Journal of Com- puter Vision, vol. 100, no. 2, pp.
190–202, 2012.

[3] Antonio Criminisi, Geoffrey Cross, Andrew Blake, and Vladimir
Kolmogorov, “Bilayer segmentation of live video,” in IEEE Conference
on Computer Vision and Pattern Recognition. IEEE, 2006, vol. 1, pp.
53–60.

[4] Zhaozheng Yin and Robert T Collins, “Online figure- ground
segmentation with edge pixel classification.,” in BMVC. Citeseer, 2008,
pp. 1–10.

[5] Jialue Fan, Xiaohui Shen, and Ying Wu, “Scribble tracker: a
matting-based approach for robust tracking,” IEEE Transactions on
Pattern Analysis and Machine In- telligence, vol. 34, no. 8, pp.
1633–1644, 2012.

[6] Zhihui Fu and Hongkai Xiong, “Figure/ground video segmentation
using greedy transductive cosegmenta- tion,” in International
Conference on Image Processing, Oct 2014, pp. 3287–3291.

[7] Alireza Fathi, Maria Florina Balcan, Xiaofeng Ren, and James M
Rehg, “Combining self training and active learning for video
segmentation,” in BMVC, 2011, vol. 29, pp. 78–1.

[8] Katerina Fragkiadaki, Pablo Arbelaez, Panna Felsen, and Jitendra
Malik, “Learning to segment moving ob- jects in videos,” in IEEE
Conference on Computer Vi- sion and Pattern Recognition. IEEE, 2015,
pp. 4083– 4090.

[9] Chenglong Bao, Yi Wu, Haibin Ling, and Hui Ji, “Real time robust
l1 tracker using accelerated proximal gradi- ent approach,” in IEEE
Conference on Computer Vision and Pattern Recognition. IEEE, 2012, pp.
1830–1837.

[10] Tianzhu Zhang, Bernard Ghanem, Si Liu, and Naren- dra Ahuja,
“Low-rank sparse learning for robust visual tracking,” in European
Conference on Computer Vision, pp. 470–484. Springer, 2012.

[11] Xiaobai Liu, Liang Lin, and Alan L Yuille, “Robust region
grouping via internal patch statistics,” in IEEE Conference on
Computer Vision and Pattern Recogni- tion. IEEE, 2013, pp. 1931–1938.
[12] Chenglong Li, Liang Lin, Wangmeng Zuo, Shuicheng Yan, and Jin
Tang, “Sold: Sub-optimal low-rank de- composition for efficient video
segmentation,” in IEEE Conference on Computer Vision and Pattern
Recogni- tion. IEEE, 2015, pp. 5519–5527. [13] Radhakrishna Achanta,
Appu Shaji, Kevin Smith, Au- relien Lucchi, Pascal Fua, and Sabine Su¨
sstrunk, “Slic superpixels,” Tech. Rep., 2010. [14] Peihua Li and
Qilong Wang, “Local log-euclidean co- variance matrix (l2ecm) for
image representation and its applications,” in European Conference on
Computer Vi- sion, pp. 469–482. Springer, 2012. [15] Federico Perazzi,
Philipp Krahenbuhl, Yael Pritch, and Alexander Hornung, “Saliency
filters: Contrast based filtering for salient region detection,” in IEEE
Con- ference on Computer Vision and Pattern Recognition. IEEE, 2012,
pp. 733–740. [16] Xue Mei and Haibin Ling, “Robust visual tracking and
vehicle classification via sparse representation,” IEEE Transactions on
Pattern Analysis and Machine Intelli- gence, vol. 33, no. 11, pp.
2259–2272, 2011. [17] Liansheng Zhuang, Haoyuan Gao, Zhouchen Lin,
Yi Ma, Xin Zhang, and Nenghai Yu, “Non-negative low rank and sparse
graph for semi-supervised learn- ing,” in IEEE Conference on Computer
Vision and Pat- tern Recognition. IEEE, 2012, pp. 2328–2335. [18] Fan
Yang, Huchuan Lu, and Ming-Hsuan Yang, “Ro- bust superpixel tracking,”
IEEE Transactions on Image Processing, vol. 23, no. 4, pp. 1639–1651,
2014. [19] Vladimir Kolmogorov and Ramin Zabin, “What en- ergy functions can be minimized via graph cuts?,” IEEE Transactions on
Pattern Analysis and Machine Intelli- gence, vol. 26, no. 2, pp.
147–159, 2004. [20] Yuri Boykov and Vladimir Kolmogorov, “An experi-
mental comparison of min-cut/max-flow algorithms for energy
minimization in vision,” IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 26, no. 9, pp. 1124–1137, 2004.
[21] Weiming Hu, Wei Li, Xiaoqin Zhang, and Stephen May- bank, “Single
and multiple object tracking using a multi-feature joint sparse
representation,” IEEE Trans- actions on Computer Vision and Pattern
Recognition, vol. 37, no. 4, pp. 816–833, 2015.

更多推荐

根据低秩与稀疏度在视频中分割前后景