企业微信产品折扣下单

营销日历

您现在的位置是:首页 > 营销工具 > 数字人

数字人

从虚拟偶像到 AI 学生,数字人概念还能火多久?

2023-10-25数字人
去年的时候,大家对数字人的前景都普遍不看好,而我预言数字人的概念会被某个虚拟生态的概念吸纳并迅速发展。如今几个月元宇宙的火热带着数字人又冲上了热搜,也基本算是命中了。
去年的时候,大家对数字人的前景都普遍不看好,而我预言数字人的概念会被某个虚拟生态的概念吸纳并迅速发展。如今几个月元宇宙的火热带着数字人又冲上了热搜,也基本算是命中了。

但是,从数字人到智能人格,仍然有很多技术需要攻克。要了解它的发展前景,我们需要先了解数字人这个概念本身代表什么。


数字人——虚拟化人格的诞生

所谓数字人,本质上是AI的一种进化,是通过计算机图形学技术进行虚拟制作的类人形象,没有现实世界中的身体。

数字人的本体存在于计算设备中(比如电脑、手机)中,通过显示设备呈现出来,让人类能通过眼睛看见。它具备人类的外观和行为模式,数字人具有人类身体的外观形体结构,表现出来的行为模式是与人类相仿的,数字人的影像通常是呈现出某种人类的活动。

数字人这名字听着稀奇又别扭,其实它最初的原型大家都听过——NPC。


数字化人格的由来

NPC是英文(Non-Player Character)“非玩家控制角色”的缩写,是游戏中一种角色类型,意思是非玩家角色,指的是游戏中不受真人玩家操纵的游戏角色,这个概念最早源于单机游戏,后来也逐渐被应用到其他领域中。

NPC这一数字化形象最早诞生于1927年,并在之后的很多游戏中衍生出很多被人津津乐道的故事,比如《塞尔达传说》和《上古卷轴》中的“杀鸡”,《文明》系列中的“核平使者”甘地等等。说到最经典的一个NPC和台词,自然是“直到我膝盖中了一箭”

 

这可能是互联网上流传最远的游戏梗之一了,其出处为经典的《上古卷轴:天际》,游戏中守卫有这样一句台词:“我曾经和你一样是个冒险者,直到我膝盖中了一箭。”由于游戏中守卫的台词就那么几句,因此这句话的出场率极高,并且语气中透露着淡淡的忧伤和迷之喜感,使得这句话迅速走红,并被不断化用。

数字人的发展与进化

随着科技发展,NPC已经不再局限于游戏,而是有了更广义的概念——数字人。我们知道,从图灵机开始,创造一个真实拟人的人工智能就一直是计算机的终极浪漫。算法技术与数字化发展至今,已经有了很多前所未见的可能,从初音到爱酱,再到如今虚拟角色的爆红,都象征着我们已经迈入了一个新的时代——数字人时代。

跳出游戏领域之外,数字人这一概念也不再是只会发布任务、回答互动的固定个体了,而是成为更加广泛、更加贴近真实生活的存在——人格。

在数字人的进化过程中,元宇宙悄然出现。人格是元宇宙的虚拟化社会中最基础的组成单元。这里的人格可以被分为两种类型:投影人格和虚拟人格。


元宇宙——万物皆为人格

所谓投影人格,其实就是将真实的人类与虚拟化形象连接起来,本质上还是人类。最初级的就是大家在玩游戏时所扮演的游戏角色(比如所有RPG类游戏),再往后就是如今的Vtuber
  • 爱酱:著名的花Q发明者


如果说投影人格不过是人类套上了一层数字化的皮,那么另一种完全虚拟化的智能人格,就是脱离人类而存在的真正独立个体了。

比如前文提到的NPC们,又或者是最早的初音未来(程序智能)、再如今的小冰、小爱(AI智能)


今天我们所接触到的很多智能客服、语音机器人等等,其实都属于广义的虚拟化智能人格,不同点是它们更注重内在智能与功能,而去掉了外在的仿真,就像电影《HER》中斯嘉丽约翰逊所饰演的那个AI,只以文字、语音来展示和交流。

和投影人格不同,它们的内核来自于程序或AI算法,本质上属于设定的程序智能或人工智能(这取决于其源代码和实现方式)并在功能上基本脱离人类,具有独立于人类思想之外的行为能力。

这一进步得益于AI领域中NLU、NLG和语音算法等各个方向的技术突破,同时也依托于3D人物生成的巨大进步,并最终集成为数字⼈多模态建模,语⾳识别,语义理解,⼈脸关键点检测及交互的联合建模技术。

举个例子,在 面部捕捉与建模方面,主要是外观捕捉设备与视觉算法的进步。比如今年2月虚幻引擎公布的MetaHuman Creator实时3D创作工具,使实时数字人的创作时间从原本的数周乃至数月缩短至一小时以内,并保持照片般超逼真的效果。


当模型后续对接数据、动作等接口,可以实现完全仿真,展示效果和真人一样。而除了面部,数字人的整体姿态也有明显进步,比如基于卷积神经网络、注意力机制的几类开源CV库,以及谷歌的追踪算法BlazePose等。

其次是NLG与NLU等算法,这一块代表着数字人的核心——智能。

NLU让AI能够理解人类的语言,NLG则让AI能够思考、输出并与人类交互。以OpenAI为例,近年来的几次预训练大模型(如GPT-3)都刷新了算法SOTA的历史纪录,甚至能够部分达到人类水平。

 

从现在展望未来,我认为数字人的发展将与AI、IOT、虚拟社交等概念相结合,成为人类文明技术史上的重要环节。

但不得不正视的一点是,现如今除了OpenAI,其他多数可落地智能数字人,仍然存在很多限制与缺陷,比如:

 
真实感:面部表情生硬、细节缺失;
智能性:空有外貌(很多产品以CG为主)底层AI算法落后/产品全栈工程欠缺;
专业度:多数智能客服等太过冰冷,无法兼顾人性化和专业化;

从理论到实践,这3个维度也正是数字人所避不开的——真实、智能、专业

这3个维度正好对应着问题本身:如果只是单一、冰冷、功能化的数字人,那么未必能够在未来继续发展,换句话说,它将无法打破“工具”这一概念的桎梏,陷入Gartner曲线的停滞区。


但如果能在这三个维度上不断突破,那么数字人将可能在未来十年内成为下一个细分领域的热点概念——一个并不依附于元宇宙的独立概念。

细分来看,其实很容易推出这三个维度的理论立足点:

 
真实,让虚拟的数字人更容易被人类所感知和接纳,从数字上赋予“人”的特征。
智能,无论是与人交互还是单向传递,都可以真正让人工智能从“形似”到“神似”。
专业,这一点继承了数字人的本质理念,不论是NPC还是AI,都有其功能性,在社会中发挥着一定价值。

当然,这个“三维度”理论只是我们的简单假设,如果想要论证它的核心逻辑,则离不开实际的案例说明。这一点其实不太容易,因为无论是从外形拟态,还是智能拟真,国内绝大多数虚拟数字人还处在起步阶段,并存在一个重要问题——很多产品技术还是处在实验室阶段,无法在落地场景提供有价值的服务。

国内几家大厂有数据、有资源,其实也产出了一些比较亮眼的项目。上个月我和腾讯做AI的朋友聊天,正好听到他们最新的数字人研发进度,让我惊讶的是它不仅完成度很高,从某些方面对应着以上三维度的发展方向,还从能力上直接去到AI驱动的水平。

1、真实

通过已公开的技术博客,这个叫云小微数智人的产品在“真实”维度上做的很不错(以业界现有技术水平来看)


首先是建模上,如今二次元盛行,而市面上的数字人以卡通、半写实、写实居多,云小微除了这些还开发了更加拟真自然的2D真人、3D超写实形象,相对更加丰富。

而形体动作生成、微表情生成也令人意外,除了常规的指点动作,还能够自然地完成诸如称赞、托脸等几百个灵活的肢体动作。

2、智能

这里的智能特指中文语境下,原因很简单——很多开源相关模型没法直接用。

国际上这几年的超大预训练模型发展很迅速,从BERT到GPT1.0再到3.0,SOTA算法每年都在迭代,而大多数模型,比如我之前写作AI所用到的OpenAI开源的GPT-2,都是基于英文语料,模型设计(比如token)也天然地不适合中文。

这一点上就卡死了很多小厂——如果想足够“智能”的模型,就需要大量训练成本和开发成本,对语音识别->文本理解->生成输出等端到端的工程设计也有很高要求。

这一点大厂的优势非常明显,有足够的数据和技术积累去做自研模型迭代,同时基于完善的基础架构来保障低时延流畅交互体验。

在交互层面,云小微数智人可支持单向服务、双向交互两类需求,在驱动方式上也分为
  • 文本驱动:用文本驱动数字人进行内容播报,工作人员只需要输入文本内容,就可以自动生成唇形匹配的数字人视频,提升内容生产效率;
  • 声音驱动(支持无缝接管)直接采用原声驱动,不需要任何文本,通过语音,数字人就被直接驱动,方便快捷,为数字人赋予更加生动的感觉;
此外从下游场景来看,服务器并发性能是影响应用大规模落地与体验的重要因素,云小微依托于腾讯云的底层架构,服务器性能优越、软硬件配置规格也是我们这种小工作室望尘莫及的。

3、专业

专业主要是指在下游应用的落地程度,从下游行业落地方案上,可以看出云小微数智人已经覆盖⾦融、传媒、⽂旅、政务等多个⾏业,形成一定的⾏业标准。

比如金融领域,过去的信贷审核都是真人,但我们现在进行申请时对面的审核员可能就是数字人了。我了解的案例中,有部分金融集团已经在⼤额信贷⾯审⾯签场景中上线的云小微的数字员⼯, ⽤户完成资料进⼊信贷审核后,可以在⼿机上直接与AI数字员⼯进⾏⾳视频互动完成智能审核流程。

此外,在传媒领域,特别是互联网环境下,数字人的落地也更加水到渠成——因为在以数字为媒介的世界中,人人都是虚拟的。实际上,我们现在已经可以看到数智主播播报新闻了。

最后

实现了这三个维度,一个完整的虚拟人格就能够称得上“可用”,并落地到不同应用场景。当然,如今的技术瓶颈仍然存在,需要科研人员的持续迭代。

但是不可否认的一点是,随着虚拟概念的普及,未来会有更多像腾讯云小微数智人一样有智能、可落地的数字人出现,并在此基础上不断进化,让日常生活更加科技、智能。

最后回到问题本身:关于数字人还能火多久,其实答案早已给出。

未来随着如数智人这样的应用落地,兼具“三维度”的智能化的虚拟人格将不断进化,最终融合到我们每个人息息相关的生活中去——不再是火与不火,而是成为智能生活的一部分,与我们并生。

如想详细咨询腾讯数字人的问题和消息,可扫描二维码或电话咨询!


咨询电话:400-660-1126

文章评论

客服在线

服务时间

周一至周日 9:00-21:00