博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
旋转or跳跃?基于互联网视频的人体运动捕捉
阅读量:2242 次
发布时间:2019-05-09

本文共 2948 字,大约阅读时间需要 9 分钟。

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

基于图像的人体姿势估计的最新进展使从单个RGB视频捕捉3D人体运动成为可能。但是,单视图固有的深度不确定性和自遮挡问题导致其恢复的结果无法达到多视图重建的高质量。尽管多视图视频并不常见,但名人执行特定动作的视频通常在互联网上非常丰富。虽然这些视频是在不同的时间录制的,但是它们依然会编码人的相同运动特征。

因此,我们提出联合分析这些互联网视频而不是单独使用单个视频来捕捉人的动作。但是,这项新任务带来了许多新的挑战,这些挑战是现有方法无法解决的,因为视频不同步,摄像机视角未知,背景场景不同以及视频中的人体动作并不完全相同。为了解决这些挑战,董峻廷等提出了一种基于优化的新框架,并通过实验证明了与单视图运动捕捉方法相比,它能够从多个视频中恢复更为精确和细致的运动的。

董峻廷:浙江大学CAD&CG国家重点实验室三年级博士研究生,导师为周晓巍研究员。研究方向为三维重建与人体姿态估计。相关研究成果发表在计算机视觉顶级会议CVPR和ECCV上,并两次获得oral。个人主页:http://jtdong.com/

一、引言

人体运动捕捉(Human motion capture,MoCap))是一项非常核心的技术,它有着十分广泛的应用,比如电影制作、视频游戏开发、体育分析等,最近重映的电影《阿凡达》就是电影制作中一个很好的例子。

尽管现已有一些针对人体运动捕捉的商业解决方案,如Vicon等,但这些系统都是非常专业的,在日常使用中并不适合。另外,最近也出现了许多无标记的人体运动捕捉的算法,通过多目的输入,可以捕捉各种各样的动作。但这些方法存在价格昂贵、标定困难、使用麻烦等问题。更重要的是,它们要求动作执行者必须在捕捉设备里进行动作采集。举个例子,你想采集费德勒的一个动作,你就必须把他请到你的工作室里执行相应的动作,这一定程度上是存在困难的。

为让人体运动捕捉技术更便于使用,研究人员开发了许多基于单目的人体运动捕捉算法。近来因深度学习的进步、大型数据集的公开、具有很强表达能力人体模型的发布,这些单目算法都已取得了很大的进步。但这些方法也存在一些问题,最核心的问题是单目的输入始终存在深度的不确定以及自遮挡。如下图所示,恢复的结果看起来是不错的,但其实换一个视角就会发现深度上是存在不确定结果的。

幸运的是,我们发现一些名人在做某些特定动作的视频在互联网上很丰富,比如说费德勒发球,他在很多比赛中都会出现该动作。这些视频记录的不是同一场景,不是同一时间,动作也不完全相同,但它们某种程度上编码的是人特定动作的特征。我们的出发点就是从这种视频里恢复出更准确的人体运动,希望得到的动作结果与单目方法相比能更为精细。

二、方法

这是一个全新的问题,也是一个极具挑战的问题。存在的挑战主要有以下几点:(1)这些视频是不同步的;(2)相机参数是未知的;(3)背景不同的;(4)不同视频中记录的人体运动并不是完全一致的。

为了解决这些挑战,董峻廷等提出了一种基于优化的框架,来共同解决同步和重构的问题。首先,对输入的视频进行一个视频同步,得到同步视频;然后,基于同步视频重建相机参数和人体的运动。

(一)视频同步

视频同步是指找到多段视频间每一帧的对应关系,但这是一项极具挑战的任务,原因在于不同视频包含的外观是非常不同的,这里的外观涵盖了背景、人体的衣服以及相机视角等多个方面。

为了解决此挑战,讲者等提出直接使用人体三维姿态进行视频同步。具体来说,就是用一个现有的人体三维姿态估计的方法得到每一帧三维人体姿态的估计,然后基于人体三维姿态估计找到视频中每一帧的对应关系。

如下图,我们已经有视频i和j每一帧三维人体姿态,那么就可以构造出两个视频的相似性矩阵,然后根据动态规划算法就可以得到最优匹配关系,即它们的同步结果。

在两段视频的情况下,以上操作是没有问题的。但当视频段数(三段甚至更多)比较多时,就会出现回路一致性问题。所谓回路一致性,举个例子,如下图所示,三个视频之间,绿色虚线的对应关系是满足回路一致性的,因为它们形成了一个封闭的回路,而红色虚线的对应关系则不满足回路一致性约束。引入回路一致性算法的方法是在原来相似性矩阵的基础上,加入一项低秩优化项。实验表明,加入回路一致性约束能够大幅降低视频同步中的误差。

(二)运动重建

即使视频是同步的,该问题仍不能视为标准的多视图重建问题,原因有两点。首先,相机参数是未知,并且由于背景不同,相机参数无法进行恢复。针对这个问题,讲者等提出直接使用人作为参考物来对齐各视角中的相机,联合优化相机参数以及人体运动,最小化重建误差。

其次,人体运动在不同的视频中并不完全相同。为了解决这一问题,讲者等提出低秩建模,用低秩子空间来描述不同视频中的运动差异。具体而言,就是要求不同视频中的人体姿态构造而成的矩阵是低秩的。

下图比较了低秩建模与同个模型建模的效果,通过对比可以发现低秩建模能够捕捉到更精细的运动。

(三)迭代优化

方法的第三步是迭代优化,在第二步中我们已经得到人体的运动,由于重建的人体运动比之前的三维单目的方法更为准确,因此可以用重建的姿态替换掉之前单目估计的结果,更好地进行同步。有了更好的同步结果,自然就可以得到更好的重建结果。通过迭代,可以使视频同步和人体运动捕捉都得到相应的提升。

 

三、实验

由于研究的是一个全新的问题,没有适用的相应数据集,为了评估结果,讲者等收集了一个新的互联网数据集,里面包括了瑜伽、网球、棒球、乒乓球、健身、举重等运动。

下图展示了多个动作的重建结果。

对比初始的单目方法可以发现,讲者等提出来的算法可以恢复更精细、准确、鲁棒的结果。

另外,由于该算法有多目的信息,可以恢复出绝对的轨迹信息,这是单目方法无法做到的。

在修改过的3.6M数据集上进行定量实验,左边是输入的不同步的、没有标的信息的视频,右边是重建的结果。

比起单目的方法,讲者等的算法在误差上降低了33mm,并且在数据集上没有任何的训练,相机是没有标的和同步的。

在得到精细的结果之后,可以进行很多的应用,比如下图中卡通人物的驱动。

相关资料

论文标题:

Motion Capture from Internet Videos

论文链接:

https://arxiv.org/pdf/2008.07931.pdf

合作媒体:学术头条

『今日视频推荐』

整理:何文莉

审稿:董峻廷

排版:岳白雪

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

 

(直播回放:https://b23.tv/tyloFJ)

(点击“阅读原文”下载本次报告ppt)

转载地址:http://vkwdb.baihongyu.com/

你可能感兴趣的文章
如何理解MVC模型
查看>>
SpringMVC中乱码解决方案
查看>>
SpringMVC中时间格式转换的解决方案
查看>>
post和get请求相关知识点
查看>>
关于try finally 中的return语句的问题
查看>>
RequestBody/ResponseBody处理Json数据
查看>>
springmvc请求参数获取的几种方法
查看>>
在eclipse中创建和myeclipse一样的包结构
查看>>
Java中的IO流
查看>>
java中的关键字
查看>>
如果某个方法是静态的,它的行为就不具有多态性
查看>>
优化Hibernate所鼓励的7大措施
查看>>
Java 8系列之重新认识HashMap
查看>>
HashMap 、 ArrayList、String 重写了equals方法 而Object类(比如User)没有重写
查看>>
Servlet的生命周期
查看>>
Object中的getClass()返回的是当前运行的类
查看>>
加载驱动程序的方法
查看>>
深入理解java异常处理机制
查看>>
object类的基本方法
查看>>
回答阿里社招面试如何准备,顺便谈谈对于Java程序猿学习当中各个阶段的建议
查看>>