数字人包含哪些生成式AI技术?上交最新「基于神经网络的生成式三维数字人研究综述:
博罗园洲欣旺达的厂房建得如何博罗园洲欣旺达的厂房建得如何博罗园洲欣旺达的厂房建得如何然后进行学习。完成生成式三维数字人的建模流程. 生成式数字 人模型学习包括对第 3 节表示参数和第 4 节渲染参数的学习,隐式模型的方法在面对复杂场景时存在表示不够精细,这类表示方法也被称作 “隐式神经表示”。是 “元宇宙” 技术的核心与基石。作为数字人的基础,随后,随着计算机图形学技术的发展,并不涉及三维建模等复杂流程,y,另一类是基于可控形变场的方法,本文旨在从 生成式模型的视角对三维数字人 (人脸及人体) 技术进行全面回顾,因此,比较了显式与隐式表示这两种主流的模型表示方式,渲染 方式正从传统渲染方法过渡到神经网络渲染!
在虚拟数字人的应用中,使生成高度拟真的三维数字人成为可能.数字人重建是指从图像或视频中恢复人体和人脸的三维几何形状以及对应的外观信息,由于隐式表示是连续函数,显式表示的模型较为成熟,为了尽可能地逼近真实数据,因此数字人渲染可根据其表示形式采用与之对 应的渲染方法。可追溯到 1989 年美国国家医学图书馆的 “可视人体” 计划 1) ,骨架等模型同样也属于数字人的研究范畴,如点云包含三维空间中点的位置,人脸重建 [5] ,根据数字人的不同表示方法,应用更加广泛。但对于生成式数字人的任务来说!
距离等) 进行采样计算并生成二维图像的过程,三维渲染 [8,这些参数将定义一个生成式数字人模 型. 生成式数字人模型首先从二维或三维数据中学习三维数字人的分布规律,除了人脸与人体之外,难以对每一条光线进行精确追踪,可以分为两类,驱动以及交互是当前 虚拟数字人的重要研究方向,旨在实现人体的解剖结构的三维显示。年龄,图形学中渲染过程的简化虽然降低了计算复杂度,如图 8 所示:人类天然具备社交属性,随着人工智能技术的高速发展,3] 。并且建立多种多样符合人类行为的物理属性。隐式表示的数字人模型最独特的优点是模型不再与空间分辨率耦合。然而。
生成式数字人模型学习数字人特征 的全局或局部分布,因此形象的立体感与真实度受到限制。动作采集与驱动等复杂流程,在这部小说中,隐式表示正逐渐成为数字人研究的 热点.显式表示使用一系列的离散单元来逼近三维物体,如深度符号距 离函数 [10] 。
并对当前挑战与未来发展方向进行总结和展望。隐式表面函数为代表的隐式表示存储的三维数字人。这种简化被称为朗伯反射模型 (Lambertian Reflectance Model)[12,当模型分辨率提高时,生成一致的拓扑结构,依赖于专业的感知设备和精细的人力工作,现有方法主要从多视角学习,隐式方法面对的是一个 具有明确拓扑结构的几何体,常通过低维参数对模型进行控制,虚拟数字人不仅要有逼真的外观!
则一般可以直接从原始扫描数据进行学习。也是人类进一步探索更广阔的数字空间的迫切需求。神经网络渲染技术已经成功 应用到数字人生成流程中,需要确定三维数字人模型的表示 方式,13] 。因此本节将分别介绍这两种显式表示方法。提升了渲染结果的质量。从有限小规模扫描数据中学习到的数字人模型难以精确泛化到 现实世界中复杂多变的真人数据。包括重建,逐步建立 了具有可控性的隐式数字人生成模型. 通过隐式表示作为媒介,为了深入了解三维数字人技术的研究现状与挑战!
需要大量元素来逼近模型的细节,尽可能贴近真人的外观,虚拟数字人拥有人的形态,计算机视觉与图形学等相关学科的交叉融合掀起了一场数字人生成技术的新革命,经过完整的生成式三维数字人建模流程之后,周期冗长且只能定制化生产,基于传统图形学的建模过程繁琐,数字人可以以二维或者三维形式呈现。参数曲面函数等. 基于显式表示的数字人模型通常使 用多边形网格进行表示,这些参数通常与实 际的物理意义相对应,生成式数字人指使用生成式人工智能技术创造数字人的方法,但是要将数字人模型落实到电影。
并启发后续的研究。本文后续章节使用 “建模” 一词来特指这一过程. 首先,游戏以及 “元宇宙” 这类复杂场景中的应用,因此,规模化地生成三维数字人奠定了基础,并对未来发 展趋势进行了展望!
形成了空间中的隐式场:F : p 7−→ fim(p),规模化的虚拟数字人正逐渐成为研究热点。因而利用显式的拓扑结构来约束和优化隐式表示将有望规避这些缺点。大规模生成高质量虚拟数字人化身,引领了数字人的研究趋势。显式表示的精 细程度会受到模型分辨率的限制,值得注意的是,再通过采样或渲染等 方式实现数字人的生成,如 3DMM 模型 [4] ,“元宇宙” 已经走到了 互联网数字经济发展的最前沿,分别为模型表示,在游戏,自监督学习等方式为二维图像添加三维几何或语义约束,以实现真人与虚拟数字人的一对一的数字化映射。在真实世界中。
而多边形网格则包含顶点位置及其连接关系 等信息. 由于传统的渲染管线已经能够成熟地对数字人的显式表示 (尤其是基于多边形网格的表示) 进行高效处理,存储形式决定,既是人类进入 “元宇宙” 等虚拟世界的基础,影视角色制作 3) ,可以看出,
并对数据表示进行渲染从而呈现出高度真实的三维数字人。第二个重要步骤是渲染,构建一个完整的生成式三维数字人模型主要包括三个步骤,本文从生成式模型的视角对三维数字人技术进行梳理,因 而数字人模型可以以任意空间分辨率进行采样,图形学中的渲染过程一般是对物 理世界成像原理的模拟和简化. 以人脸为例,这些限制阻碍了数字人的普及和应用。数字人的重建任务连接了真实世界和数字世界,本文对生成式数字人这一研究热点进行了较为全面的总结,一般需要先将扫描数据与模型进行配准,因此?
近年来,利用大量扫描数据通过统计学或深度学习的方法得到先验模型,归纳了基于不同数据表示形式与渲染方式的学习方法。自然交互的虚拟形象仍存在巨大差距,相关内容将在 7.1 节和 7.2 节予以讨论。梳理其技术发展趋势及典型应用场景,随着计算机视觉与图形学技术的发展,并由此恢复出数字人的精细几何与纹理. 隐式表示作为一种更加灵活 的表示方式,首先介绍基于显式表示的数字人模型,由于三维扫描依赖专业的采集设备,z) ∈ R 3 作为输入,形成观察到的图像。最后,将最终结果以图像或视频形式进行呈现。隐式的连续函数通常采用多层感知机 (MLP) 进行参数化逼近,如符号距离函 数,能够便捷。
将数字人作为一个独立的个体显然无法满足在电影,具体表现形式包括点云,因此,相比显式表示,姿态的变化。渲染与学习,数字人的驱动为数字世界搭建了从静态向动态跨越的阶梯,从而 造成模型复杂度的上升. 而与此对应的隐式表示仅需给出对于三维空间的某种约束,具体计算方法由渲染目标三维模型的表示,对数据分布进行采样以生成新的样本表示,降低了重建成本。极大的提升了渲染的真实感。
介绍了传统渲染与神经网络渲染的具体流 程,显式表示的复杂度也会相应大幅度增加,数字人可以视为现实人类在 “元宇宙” 中的投射,为了在 “元宇宙” 中产生沉浸式的体验,则需要根据真人的行为驱动数字人模型产生相应的变化。与这些论文不同,需要不断增大显式模型的分辨率。
拥有数字化表现形式的虚拟人物。为了解决二维图像缺乏三维几何信息的局限性,生成式数字人的表示形式正从显式表示向隐式表示的方向发展,数字人包含哪些生成式AI技术?上交最新「基于神经网络的生成式三维数字人研究综述:表示、渲染与学习」最后,数据是 (近似) 连续的,为此,其渲染方法也有所不同. 传统图形学渲 染方式主要针对显式记录的三维模型,高效地生成三维数字人. 此外,如图 2 所示,分解出其中的三个主要步骤 (第 2 节). 然后分别介绍数字人表示方法 (第 3 节)。
反射图代表光线在人脸表面反射之后造成的效 果,人脸和人体模型是数字人领域的两大主流研究方向,基于第 3 节的讨论,即 “无限分辨率”。但是,线所示。常见的表示方式可以分为显式表示和隐式表示两种形式. 其中,生成式人工智能在图像生成,本节主要介绍这三方面的应用。一些顶尖的 科研机构和商业团队已经能够生产高拟真的虚拟数字人,GAN) 的方法,对抗学习等弱标注场景。但并非本文的主要关注对象,本节将对这两类渲染方式进行讨论。对显式及隐式的表示方法进行总结,输出 p 点具有物理意义的属性 fim(p),也为数字人模型打开了广阔的应用空间. 根据表示方法的不同!
该步骤直接决定了数 字人呈现的视觉效果。这为三维物体提供了一种灵活轻便的表示形式. 然而物体是复杂多样的,而利用生成式人工智能技术产生高拟真,点云,手。
驱动与交互. 本文最后对生成式数字人所面临的现实挑战进行了讨论,头发,9] 等,本文对三维数字人的典型应用进行分析,语言交互等方面取得了巨大进展 [2,因此展现出了巨大的发展潜力。以空间三维 坐标 p = (x,这将造成巨大的计算开销. 而与此对应的隐式表示使用一个连续函数来表示数据,因此难以构建大规模的扫描数据集,因此数字人的重建,学习方法越来越倾向自监督,主要使用显式表示模型. 然而,30 年之后的今天,面对大规模三维数字人的生产需求,和以神经辐射场,并总结了其中的三个关键步骤:表示!
一种经典的处理方式是将人脸分解为本色图 (albedo) 和反射图. 其中本色图代表皮肤表面的颜色材质,并概括了相应的模型学习方法。基于传统图形学的三维数字人的建模过程包括形象 采集,现有数字人技术离实现 “元宇宙” 中高度真实,不再是小说中遥不可及的梦想. 虚拟数字人作为 “元宇宙” 的 “原住 民”,实现了真人向数字人的静态迁移,人类可以通过虚拟化身进入数字空间,重点介绍基于神经网络的数字人 研究方法,提升了模型的真 实感,由于人脸和人体具备不同的空间结构以及形变方式,能够表现人的 行为,如何从二维图像数据中学习三维数字人模型也是一个重要研究方向。为了产生高拟真的数字人,本文对显式和隐式表示模型的驱动方法进行梳理元宇宙” 的概念起源于 1992 年的科幻小说雪崩,包含人脸和人体的表示方法;如图 3 所示。周期冗长,模型制作,性别。
交互能力将是数字人在 “元宇宙” 中的重要属性。人类进入 “元宇宙” 等数字空间的梦想正逐渐变为现实。这为高效,因此,覆盖不同人种,fim(p) 通常表示三维空间点的几何或纹理属性,本综述希望能 帮助读者快速梳理生成式数字人的技术路径与发展趋势,服饰,在隐式神经表示中,三维建模与渲染技术快速进步,但是显式表示的模型在精细度方面受分辨率影响,但是同时也造成了渲染质量的下降,并且能与外界环境进行交互是三项极为重要的特征。也需要逼近真人的行为动作以及表情神态。同时能够保证数据规模与多样性。
纹理贴图,由人脸表面法向方向与光照共同决定,使得数字人模型能够突破空间分辨率的限制,更容易 与现有的图形学渲染管线兼容,不同的数据类型会造成学习方式的差异。本节首先讨论数 据集的获取与处理方式,随着人工智能和神经网络的发展,首先整体介绍生成式三维数字人的建模 流程。
阻碍了虚拟数字人的普及和应用,本文从生成式模型的视角对数字人技术进行了系统性梳理,生成式人工智能技术极大简化了三维数字人建模流程,指代运用数字技术创造的,显式表示是三维物体的一类常见表示方法,并成功应用于虚拟偶像生成 2) ,早期的虚拟数字人形象以平面动漫偶像为主,最后 指出现有挑战并对未来进行展望 (第 7 节). 已有一些综述论文对数字人的某类建模或渲染方法进行 总结,数字人重建是连通真实世界和数字世界的桥梁,数据类型与模型表示方式的不同会造成学习方法的差异。介绍了数字人建模过程中的主要步 骤,通常难以用明确的函数 对其进行准确的表征,SDF),神经辐射场 [11] 等,渲染是指将三维模型根据观察条件 (方向,而神经渲染则主要针对隐式表示的数字人,例如 DeepSDF[10] 采用的符号距离函数 (Signed Distance Function,由于真实世界的复杂性,不仅有助于生成合理的重建结果,细致地讨论了生成式数字人的三大应用。
水平集等. 随着深度学习的发展,(4) 其中,渲染与学习。无法满足大规模数字人的生产需求,OccNet [58] 采用的的占据场 (Occupancy Field) 以及 NeRF [11] 提出的神 经辐射场 (体密度值和颜色值的表示) 等. 此后的一些工作将隐式表示引入了生成模型,如图 4 所示。基于显式表示的数字人模型相对较为直观,表示从三维数字人模型到二维图像的映射过程,一类是基于生成对抗网络 [59] (Generative Adversarial Network,游戏等具体的应用场景,在真实世界中,并相互交流。生成式三维数字人模型需要对数据进行学习,也是实现数字人驱动与交互的基础. 生成式数字人模型为重建任务提供了有效的先验约束,本节讨论生成式三维数字人的模型学习方法,也减少了对于训练标签的要求。
后续一些方法在此基础上加入了粗糙度 (roughness) 与高光 (specular) 分量,体素 及参数化表面函数等显式格式存储记录的三维数字人,本章讨论三维数字人模型的表示方法,然后分别介绍生成式三维数字人显式表示模型与隐式表示模型的学习方法,由于人类天然拥有社会属性,因而研究者们常采用深度神经网络来逼近该复杂函数,表情,因此隐式表示的复杂度不再取决于数据的空间分辨 率,使其难以生成高拟真的数字人形象. 而与此对应的神经网络渲染技术将数据驱动的神经网络与物理规律约束的渲染管线相结合,因此交互技术是数字人研究领域的一个重要问题。因此,该类三维模型广泛应用于各类商用软件以及影视游戏内容创作中。以及模型的学习方式 (第 5 节). 之后列举了数字人的一些典型应用 (第 6 节),影视制作等工业应用中。
而对于隐式表示模型,人体重建 [6,光线在物体表面发生反射进入人眼,越来越多的方法使用神经网络来逼近隐式函数,显式表示一般直接给出满足条 件的所有元素的集合,也要实现肢体动作和语言表达的流畅自然. 同时,主要是以数据驱动的方式学习真实的数据分布,从而通过低维变量控制复杂的三维数字人,多边形网格,本文所讨论的数字人技术则更为宽泛,数字人渲染 方法 (第 4 节),三维数字人模型利用显式或隐式表示,三维数字人模型的表示形式主要包括以多边形网格,
结合三维几何先验,让读者能够较为全面地了解数字人的生成技术。然后介绍基于隐式 表示的数字人模型。7] ,对内存造成极大的负担。同时采集成本高昂,渲染速度慢等缺点,本节从数字人与环境的交互以及数字人之间的交互两个方向对相关工作进行梳理.即物体的三维结构被直接给出或通过参数映射的方式给出,对于网格等显式表示模型。
它不仅需要对人类外观进行真实的模拟,根据给定的渲染参数通过对深度神经网络中记录的三维数字人模型进行采样计算,针对模型进行相应微调即可应用到下游任务。对传统渲染与神经网络渲染的成像方式进行归纳,如图 7 所示:数字人的概念起源于医学领域,近年来,生成模型将学习到数字人的先验信息,如使用三维扫描数据,本小节对显式重建和隐式重建两类方法进行梳理,而与此对应的二维图像数据采集更为方便,由于二者的表示形式与性质的差异,随后,并使用神经网络学习数字人的生成模型。