一个摄像头就能让虚拟人唱跳rap:抖音即可玩

全身动作捕捉,现在无需昂贵的动捕设备,只要一个摄像头就能轻松实现。

并且就在抖音上,人人都能上手体验。

上面这段虚拟数字形象跳舞的视频采用了抖音直播伴侣功能背后的全身驱动技术,主播仅需要单个普通摄像头并开始跳舞,就可以实时、精准地驱动虚拟形象。

相较于以往的轻量化动作捕捉,这项来自字节跳动智能创作团队的全身驱动技术具有高真实性,可以体现空间的距离感和地面感。

并且具有更高的鲁棒性,能够在复杂的环境、穿戴等场景下实现良好的结果。

同时,还具备更高的还原性,人物的姿态、手势和动作的姿态、速度都能更加准确地还原。

值得一提的是,普通的惯性动捕手套在一定时间后就会产生漂移损耗,无法支持长时间的直播,而全身驱动技术则可以有效规避这一问题,能够更好地适应直播场景。

据介绍,全身驱动技术的技术方案包含了数据、估计、修正以及驱动四个步骤,具体的实现方案如下:

一个摄像头就能让虚拟人唱跳rap:抖音即可玩

△全身驱动技术方案全流程构建高精度3D数据供应链

技术团队使用了混合3D数据构建方式,其来源包括自建多目工装动捕系统、2D数据、伪标签3D数据,基于此,团队构建了包含800万以上高精3D标签的数据集。

为了获取接近业务场景的高精度3D人体数据,团队搭建了一套完整的基于多目摄像头的无标记物视觉动捕系统,并基于自研的人体重建算法,实现了对人体的位置,姿态和体型的准确估计。

尽管在多数情况下,自动化的重建算法能够给出精度满足要求的重建结果,但对于一些遮挡严重,运动过快导致模糊的样本,仍需要通过人工筛选修正的方式进行数据清洗。

通过搭建3D数据筛选标注系统,可以实现高效的半自动化数据生产,并通过将人工审核后的样本用于相关模型的训练,持续优化数据产线相关模型的性能,最终实现数据质量的自举式提升。

一个摄像头就能让虚拟人唱跳rap:抖音即可玩

△高精度3D数据构建流程高还原性与高鲁棒性的全身估计模型

据介绍,通过上述步骤,团队积累了样本量高达近千万的大规模数据集。

在此基础上,团队训练了一个基础特征表示底座进行3D-Aware的共享特征抽取,基于共享特征构建了姿态估计分支、相机估计分支、Root点估计分支。

(责任编辑:AK007)