知识中心
所有文章
帮助中心
AI客户联络中心 升级日志
API文档
数字人相关问题
最后更新于 2023/10/20   阅读数 97

一、数字人的定义是什么?

答:数字人即虚拟数字人,指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物,也被称为虚拟形象、虚拟人等。

二.数字人是如何分类的?

答:(1)从驱动的方式来对虚拟数字人进行分类,可分为真人驱动型和智能驱动型

真人驱动型虚拟数字人:主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。智能驱动型虚拟数字人:通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过AI技术训练得到的,可通过文本驱动生成语音和对应动画。未来随着人工成本的逐渐攀升、以及人工智能技术的持续进步,智能驱动型的虚拟数字人预计将成为行业趋势。

(2)从商业化和应用场景来区分,可分为:内容/IP型、功能服务型、虚拟分身型内容/IP型主要应用于影视、文娱、市场营销等场景,功能服务型主要应用于行业服务场景(电商、金融、教育、医疗、文旅等行业),这两种类型虚拟数字人更多是面向B端;虚拟分身类型数字人除了面向B端的应用,C端用户也会有制作虚拟形象的需求,用于虚拟空间中的形象分身和代理(例如在虚拟社交平台)。


三、为什么数字人的应用正越来越受欢迎?

答:随着5G等信息基础设施的完善,社交的视频化,视频会议和直播的普及,游戏的云化,物联网和数字孪生的发展,“万物互联”的世界逐渐成型,随着人工智能等新兴技术的加持,一个和物理世界逐渐融合的虚拟世界正在崛起,人机交互的方式加速更迭,变得越来越丰富立体。先是有文本交互(比如即时通信工具聊天),后有语音交互(比如机器人外呼,智能家居的语音控制),再到融合了视觉、语音及语义技术的多模态数字人交互 (比如数字人导购,虚拟教师),用户在虚拟世界中将得到更为真实,更接近现实,更具沉浸感的体验。

物理世界中人人交互的场景会越来越多在虚拟世界中迁移、复制并融合新体验,这就是数字人交互应用潜力所在,代表着智能人机交互的新范式。

此外,现在客户越来越重视体验,不只是满足于传统的价格、功能这些因素,体验经济渐渐崛起。基于生活和情境打造感官体验,让顾客在购物和服务中获得更好的愉悦感,有助于提升客户满意度,这也是数字人发展的一个重要驱动因素。

四、相对于文本和语音交互技术,数字人交互的价值体现在哪里?

答:数字人最重要的价值是给用户提供更真实自然的交互方式,就像我们人与人之间的沟通一样,是最贴近真实的,带来非常自然的体验,更加人性化。比如在教育场景,数字人可以做老师的虚拟形象,跟学生互动,提升学习的积极性和体验。

此外,从交互效率的角度来看,文本和语音都有局限。文本交互需要打字,语音可能在嘈杂环境下丢失信息,但数字人听的懂,看的见,说的出,信息收集、交互和传递维度更为丰富,有更强的场景适应性, 还可以增加多媒体面板以富媒体的形式表达信息,交互效率也提高不少。

同时,数字人是非常好的情感化表达载体,在一些特定场景下有独特优势,是其他交互形式无法替代的,比如说针对独居老人,可以做一个亲人的形象来陪伴老人;针对留守儿童,可以做爸爸妈妈的形象。而语音和语义的交互形式更多停留在功能上的作用,情感化属性相对欠缺。情感属性的另一面还体现在数字人有助于企业品牌的人格化,和客户建立更人性化的情感纽带。

当然,目前数字人的应用还在早期,随着时间的推移,大家对数字人的认识越来越深,越来越多的数字人价值会被发现和释放,巨大的市场潜力正等待大家挖掘。

五、 数字人行业整体发展情况如何?

答:今年可以看作是数字人的元年,随着ChatGPT的爆火,需求渐渐起来,越来越多的厂商也在进入数字人领域,一些行业的领先公司已经开始应用数字人,可以说是百舸争流,群雄逐鹿。整个数字人市场还在发展的初级阶段,各家公司都在探索不同的落地场景,大家走的方向和路径也有所不同。

从是否具备双向交流能力来看,数字人可分为交互型和非交互型。交互型就是具备类似于人的沟通和互动能力,能实时与人双向交流,可以用在客户服务,教育培训,营销导购等互动式场景。非交互型主要是指按照事先设定好的内容和情境单向输出内容,比如数字人主播,或者电影和游戏中的数字人。数字人的呈现形式可分为真人形象, 仿真,和卡通类型。作为最新技术的超写实真人形象目前是2D为主,能做到对人的形象像素级还原并深度模仿模特的音色,是商业化的主要方向。

数字人产品,特别是交互型数字人,需要在语义、语音、视觉、底层算法等领域都有足够的技术积累,云蝠智能深耕AI五年有余,有着深厚的技术积累和项目经验。

六、作为一种新兴的技术应用,虚拟数字人的难点在哪里?

相比语义、语音交互产品,数字人加入了视觉元素,需要一个逼真的形象,让用户能够有交互的沉浸感。怎么让数字人在与用户的交互中做到非常自然,比如说数字人的声音和形象要同步,嘴型、动作和表情要匹配,没有瑕疵,而且要在对话中实时推理完成的,这对算法和计算性能的要求非常高,是非常难的。实际上,数字人是从文本低维信号转变为图像高维信号的过程,只有同时具备自然语言理解(NLP)、语音识别和生成,视觉合成这样的整体AI能力,才能给用户一个自然逼真的体验。

从产品设计的角度上说,数字人是一个类似于人与人之间面对面交互的产品,语义、语音、视觉的交互是同步进行的,后台交互逻辑的搭建体系需要不断迭代,素材库的持续增加,视频的编辑器易用、好用程度也要向主流剪辑软件看齐,这无疑是需要很强的研发实力。

六、云蝠智能的虚拟数字人有何特点?

数字人从算法到设计,再到工程化和集成环节是非常复杂的,需要对语音、语义、视觉三个不同方向的AI能力进行整合,这要求厂商有非常深厚的技术积淀。云蝠智能是做语音交互起家的,逐步发展到视觉多模态技术,形成全栈AI的能力,在数字人的核心“大脑”部分,主要是依赖NLP技术实现人与人的双向交互,云蝠智能自主研发神鹤大模型NLP,已累计用于3亿+轮数对话,同时,我们也接入GLM、360智脑等生成式预训练模型,用于提供短视频文案或实时交互说辞

七、数字人目前的发展现状到底到了什么程度?

答:早在上世纪80年代虚拟数字人概念开始出现,当时在音乐领域萌芽,虚拟人生成技术以绘制为主。自2000年起,受益于传统手绘方式逐渐被CG、动作捕捉技术取代,虚拟数字产业正进入产业化探索阶段。

数字人的应用其实从2021年下半年开始进入民营渠道,先被人们认知的是数字人口播短视频,采集真人或者完全设计全新虚拟人形象,为客户提供短视频制作服务,采集真人的效率要比设计一个新的虚拟人形象要高效的多。

数字人的第一个应用场景就是去给没有短视频创作能力,或者没有颜值型模特的企业提供口播类短视频服务,而且终端销售难度不大

八、目前什么人是购买数字人拍短视频最多的群体?

答:大多数都是医生,律师,这些平时有非常繁忙的本职工作,但是又大量需要内容输出的群体;另外就是需要输出大量口播类内容的抖音和快手的内容创作者。

九.一个数字人结合真人IP拍视频,一年需要多少钱呢?

答:SaaS使用费用在8K-10K/年左右,远远低于一个模特长期拍摄的成本

十、数字人一般是怎么收费的呢?

答:数字人一般是按合成视频时长来计费,可以直接使用公有模特生成视频,如需自己定制,可以提交训练素材生成专属模特,收取定制费用。

十一、选择数字人公司的服务方案,重点需要关注哪些?

答:(1)训练的效果,因为这个直接决定了视频成像的质量。这一个小细节很多公司都会忽视掉。不要花费几万,甚至十几万搞了个数字人,结果因为采集视频质量不到位,导致最后的成像效果非常差,钱打了水漂了。大家在做数字人的时候,一定是结果驱动选择。你要想明白,你做数字人到底用来拍视频还是做交互?建议大家在前期的时候,可以一步一步的来,可以先熟悉一个功能点,成功实现变现之后,再增加一个功能点,再变现。

十二、数字人直播的效果到底如何?

答:目前通病都是不够生动。不少商家直言,虚拟主播目前的转化率并不高,带货能力也远不如真人主播。“虚拟主播‘太假’,话术简陋、缺乏情感和个性化,很难吸引用户下单。”

目前,不管是淘宝直播,还是抖音、快手直播,做得好的可以看榜单,前100名都没有虚拟主播,全是真人主播。而且大部分时间是团队化运作的真人主播。直播电商需要解决的是信任问题,没有真人背书,虚拟主播很难吸引人类下单。一位头部美妆品牌负责人表示,目前数字人在店播中应用并不广泛,主要用于深夜11点至12点期间,重要的节日促销和黄金时间并不会使用数字人。

十三、AI数字人主播的应用场景主要有哪些?

答:大致分为3类:一类是以售卖“标品”为主的直播间,比如快销品、零食、日用百货等,以单纯讲解为主,内容重复度较高,话术比较统一;一类是本地生活商家的直播间,售卖团购券、外卖券,无论主播是谁,消费者来到直播间的“目的”明确,是为了低价优惠而来;还有一类便是以纯输出观点为主的直播间和短视频。

十四、数字人直播优劣势在哪里?

答:数字人主播表现出的,不受时间、地点、环境等因素影响,可以实现7X24小时高强度直播,不知疲倦、不会辞职等优势。

一是,能节省成本。从成本来看,无需灯光、摄像等硬件投入,也少了主播培训、主播月薪等软投入,只需缴纳数字人定制费和系统服务费,就可以长期使用数字人,而这笔费用相较来说更划算。一般一个主播平均月薪两万元,一年也要 24 万元。一个 AI 主播定制费用 8000 元,一年系统使用费 8 万多元,算下来可以省下10 多万元。

二是,能提高闲时流量。当下阶段,数字人直播通常起辅助功能,很多企业会采用真人+数字人搭配的直播模式。黄金时段和重大促销节点上,使用真人主播,与用户进行实时交流互动,能最大化提高转化率。当真人主播下播后,如深夜、凌晨、或白天观看直播人数较少的时间段,就可以替换上数字人主播。作为真人直播的补充,数字人主播可以做到24小时不停歇直播,延长直播时长,提高闲时流量,为商家带来新的增量和可能。

数字人主播的劣势体现在真实度低、话术简陋、缺乏情感和个性化、转化率低,受限几率高,数字人直播从上线开始几乎一直在和平台的审核机制作斗争。


未能解决您的问题?请联系
本篇目录

一、数字人的定义是什么?

二.数字人是如何分类的?

三、为什么数字人的应用正越来越受欢迎?

四、相对于文本和语音交互技术,数字人交互的价值体现在哪里?

五、 数字人行业整体发展情况如何?

六、作为一种新兴的技术应用,虚拟数字人的难点在哪里?

六、云蝠智能的虚拟数字人有何特点?

七、数字人目前的发展现状到底到了什么程度?

八、目前什么人是购买数字人拍短视频最多的群体?

九.一个数字人结合真人IP拍视频,一年需要多少钱呢?

十、数字人一般是怎么收费的呢?

十一、选择数字人公司的服务方案,重点需要关注哪些?

十二、数字人直播的效果到底如何?

十三、AI数字人主播的应用场景主要有哪些?

十四、数字人直播优劣势在哪里?