数字人相关问题 | 云蝠智能 AI知识中心

所有文章

完整版

客户端

API文档

升级日志

合作伙伴

基础知识

数字人相关问题

最后更新于 2025/03/09 阅读数 331

一、数字人的定义是什么？

答:数字人即虚拟数字人，指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物，也被称为虚拟形象、虚拟人等。

二.数字人是如何分类的？

答:（1）从驱动的方式来对虚拟数字人进行分类，可分为真人驱动型和智能驱动型

真人驱动型虚拟数字人：主要原理是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。智能驱动型虚拟数字人：通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过AI技术训练得到的，可通过文本驱动生成语音和对应动画。未来随着人工成本的逐渐攀升、以及人工智能技术的持续进步，智能驱动型的虚拟数字人预计将成为行业趋势。

（2）从商业化和应用场景来区分，可分为：内容/IP型、功能服务型、虚拟分身型内容/IP型主要应用于影视、文娱、市场营销等场景，功能服务型主要应用于行业服务场景（电商、金融、教育、医疗、文旅等行业），这两种类型虚拟数字人更多是面向B端；虚拟分身类型数字人除了面向B端的应用，C端用户也会有制作虚拟形象的需求，用于虚拟空间中的形象分身和代理（例如在虚拟社交平台）。

三、为什么数字人的应用正越来越受欢迎?

答：随着5G等信息基础设施的完善，社交的视频化，视频会议和直播的普及，游戏的云化，物联网和数字孪生的发展，“万物互联”的世界逐渐成型，随着人工智能等新兴技术的加持，一个和物理世界逐渐融合的虚拟世界正在崛起，人机交互的方式加速更迭，变得越来越丰富立体。先是有文本交互(比如即时通信工具聊天)，后有语音交互(比如机器人外呼，智能家居的语音控制)，再到融合了视觉、语音及语义技术的多模态数字人交互 (比如数字人导购，虚拟教师)，用户在虚拟世界中将得到更为真实，更接近现实，更具沉浸感的体验。

物理世界中人人交互的场景会越来越多在虚拟世界中迁移、复制并融合新体验，这就是数字人交互应用潜力所在，代表着智能人机交互的新范式。

此外，现在客户越来越重视体验，不只是满足于传统的价格、功能这些因素，体验经济渐渐崛起。基于生活和情境打造感官体验，让顾客在购物和服务中获得更好的愉悦感，有助于提升客户满意度，这也是数字人发展的一个重要驱动因素。

四、相对于文本和语音交互技术，数字人交互的价值体现在哪里?

答：数字人最重要的价值是给用户提供更真实自然的交互方式，就像我们人与人之间的沟通一样，是最贴近真实的，带来非常自然的体验，更加人性化。比如在教育场景，数字人可以做老师的虚拟形象，跟学生互动，提升学习的积极性和体验。

此外，从交互效率的角度来看，文本和语音都有局限。文本交互需要打字，语音可能在嘈杂环境下丢失信息，但数字人听的懂，看的见，说的出，信息收集、交互和传递维度更为丰富，有更强的场景适应性，还可以增加多媒体面板以富媒体的形式表达信息，交互效率也提高不少。

同时，数字人是非常好的情感化表达载体，在一些特定场景下有独特优势，是其他交互形式无法替代的，比如说针对独居老人，可以做一个亲人的形象来陪伴老人;针对留守儿童，可以做爸爸妈妈的形象。而语音和语义的交互形式更多停留在功能上的作用，情感化属性相对欠缺。情感属性的另一面还体现在数字人有助于企业品牌的人格化，和客户建立更人性化的情感纽带。

当然，目前数字人的应用还在早期，随着时间的推移，大家对数字人的认识越来越深，越来越多的数字人价值会被发现和释放，巨大的市场潜力正等待大家挖掘。

五、数字人行业整体发展情况如何?

答：今年可以看作是数字人的元年，随着ChatGPT的爆火，需求渐渐起来，越来越多的厂商也在进入数字人领域，一些行业的领先公司已经开始应用数字人，可以说是百舸争流，群雄逐鹿。整个数字人市场还在发展的初级阶段，各家公司都在探索不同的落地场景，大家走的方向和路径也有所不同。

从是否具备双向交流能力来看，数字人可分为交互型和非交互型。交互型就是具备类似于人的沟通和互动能力，能实时与人双向交流，可以用在客户服务，教育培训，营销导购等互动式场景。非交互型主要是指按照事先设定好的内容和情境单向输出内容，比如数字人主播，或者电影和游戏中的数字人。数字人的呈现形式可分为真人形象，仿真，和卡通类型。作为最新技术的超写实真人形象目前是2D为主，能做到对人的形象像素级还原并深度模仿模特的音色，是商业化的主要方向。

数字人产品，特别是交互型数字人，需要在语义、语音、视觉、底层算法等领域都有足够的技术积累，云蝠智能深耕AI五年有余，有着深厚的技术积累和项目经验。

六、作为一种新兴的技术应用，虚拟数字人的难点在哪里?

相比语义、语音交互产品，数字人加入了视觉元素，需要一个逼真的形象，让用户能够有交互的沉浸感。怎么让数字人在与用户的交互中做到非常自然，比如说数字人的声音和形象要同步，嘴型、动作和表情要匹配，没有瑕疵，而且要在对话中实时推理完成的，这对算法和计算性能的要求非常高，是非常难的。实际上，数字人是从文本低维信号转变为图像高维信号的过程，只有同时具备自然语言理解(NLP)、语音识别和生成，视觉合成这样的整体AI能力，才能给用户一个自然逼真的体验。

从产品设计的角度上说，数字人是一个类似于人与人之间面对面交互的产品，语义、语音、视觉的交互是同步进行的，后台交互逻辑的搭建体系需要不断迭代，素材库的持续增加，视频的编辑器易用、好用程度也要向主流剪辑软件看齐，这无疑是需要很强的研发实力。

六、云蝠智能的虚拟数字人有何特点?

数字人从算法到设计，再到工程化和集成环节是非常复杂的，需要对语音、语义、视觉三个不同方向的AI能力进行整合，这要求厂商有非常深厚的技术积淀。云蝠智能是做语音交互起家的，逐步发展到视觉多模态技术，形成全栈AI的能力，在数字人的核心“大脑”部分，主要是依赖NLP技术实现人与人的双向交互，云蝠智能自主研发神鹤大模型NLP，已累计用于3亿+轮数对话，同时，我们也接入GLM、360智脑等生成式预训练模型，用于提供短视频文案或实时交互说辞

七、数字人目前的发展现状到底到了什么程度？

答:早在上世纪80年代虚拟数字人概念开始出现，当时在音乐领域萌芽，虚拟人生成技术以绘制为主。自2000年起，受益于传统手绘方式逐渐被CG、动作捕捉技术取代，虚拟数字产业正进入产业化探索阶段。

数字人的应用其实从2021年下半年开始进入民营渠道，先被人们认知的是数字人口播短视频，采集真人或者完全设计全新虚拟人形象，为客户提供短视频制作服务，采集真人的效率要比设计一个新的虚拟人形象要高效的多。

数字人的第一个应用场景就是去给没有短视频创作能力，或者没有颜值型模特的企业提供口播类短视频服务，而且终端销售难度不大

八、目前什么人是购买数字人拍短视频最多的群体？

答:大多数都是医生，律师，这些平时有非常繁忙的本职工作，但是又大量需要内容输出的群体；另外就是需要输出大量口播类内容的抖音和快手的内容创作者。

九.一个数字人结合真人IP拍视频，一年需要多少钱呢？

答:SaaS使用费用在8K-10K/年左右，远远低于一个模特长期拍摄的成本

十、数字人一般是怎么收费的呢？

答:数字人一般是按合成视频时长来计费，可以直接使用公有模特生成视频，如需自己定制，可以提交训练素材生成专属模特，收取定制费用。

十一、选择数字人公司的服务方案，重点需要关注哪些？

答:（1）训练的效果，因为这个直接决定了视频成像的质量。这一个小细节很多公司都会忽视掉。不要花费几万，甚至十几万搞了个数字人，结果因为采集视频质量不到位，导致最后的成像效果非常差，钱打了水漂了。大家在做数字人的时候，一定是结果驱动选择。你要想明白，你做数字人到底用来拍视频还是做交互？建议大家在前期的时候，可以一步一步的来，可以先熟悉一个功能点，成功实现变现之后，再增加一个功能点，再变现。

十二、数字人直播的效果到底如何？

答:目前通病都是不够生动。不少商家直言，虚拟主播目前的转化率并不高，带货能力也远不如真人主播。“虚拟主播‘太假’，话术简陋、缺乏情感和个性化，很难吸引用户下单。”

目前，不管是淘宝直播，还是抖音、快手直播，做得好的可以看榜单，前100名都没有虚拟主播，全是真人主播。而且大部分时间是团队化运作的真人主播。直播电商需要解决的是信任问题，没有真人背书，虚拟主播很难吸引人类下单。一位头部美妆品牌负责人表示，目前数字人在店播中应用并不广泛，主要用于深夜11点至12点期间，重要的节日促销和黄金时间并不会使用数字人。

十三、AI数字人主播的应用场景主要有哪些？

答:大致分为3类:一类是以售卖“标品”为主的直播间，比如快销品、零食、日用百货等，以单纯讲解为主，内容重复度较高，话术比较统一；一类是本地生活商家的直播间，售卖团购券、外卖券，无论主播是谁，消费者来到直播间的“目的”明确，是为了低价优惠而来；还有一类便是以纯输出观点为主的直播间和短视频。

十四、数字人直播优劣势在哪里？

答:数字人主播表现出的，不受时间、地点、环境等因素影响，可以实现7X24小时高强度直播，不知疲倦、不会辞职等优势。

一是，能节省成本。从成本来看，无需灯光、摄像等硬件投入，也少了主播培训、主播月薪等软投入，只需缴纳数字人定制费和系统服务费，就可以长期使用数字人，而这笔费用相较来说更划算。一般一个主播平均月薪两万元，一年也要 24 万元。一个 AI 主播定制费用 8000 元，一年系统使用费 8 万多元，算下来可以省下10 多万元。

二是，能提高闲时流量。当下阶段，数字人直播通常起辅助功能，很多企业会采用真人+数字人搭配的直播模式。黄金时段和重大促销节点上，使用真人主播，与用户进行实时交流互动，能最大化提高转化率。当真人主播下播后，如深夜、凌晨、或白天观看直播人数较少的时间段，就可以替换上数字人主播。作为真人直播的补充，数字人主播可以做到24小时不停歇直播，延长直播时长，提高闲时流量，为商家带来新的增量和可能。

数字人主播的劣势体现在真实度低、话术简陋、缺乏情感和个性化、转化率低，受限几率高，数字人直播从上线开始几乎一直在和平台的审核机制作斗争。

修改语种配置

语音质检相关问题

评价这篇文档

有帮助

没帮助

未能解决您的问题？请联系

在线客服

本篇目录

一、数字人的定义是什么？

二.数字人是如何分类的？

三、为什么数字人的应用正越来越受欢迎?

四、相对于文本和语音交互技术，数字人交互的价值体现在哪里?

五、数字人行业整体发展情况如何?

六、作为一种新兴的技术应用，虚拟数字人的难点在哪里?

六、云蝠智能的虚拟数字人有何特点?

七、数字人目前的发展现状到底到了什么程度？

八、目前什么人是购买数字人拍短视频最多的群体？

九.一个数字人结合真人IP拍视频，一年需要多少钱呢？

十、数字人一般是怎么收费的呢？

十一、选择数字人公司的服务方案，重点需要关注哪些？

十二、数字人直播的效果到底如何？

十三、AI数字人主播的应用场景主要有哪些？

十四、数字人直播优劣势在哪里？

一、数字人的定义是什么？

二.数字人是如何分类的？

三、为什么数字人的应用正越来越受欢迎?

四、相对于文本和语音交互技术，数字人交互的价值体现在哪里?

五、 数字人行业整体发展情况如何?

六、作为一种新兴的技术应用，虚拟数字人的难点在哪里?

六、云蝠智能的虚拟数字人有何特点?

七、数字人目前的发展现状到底到了什么程度？

八、目前什么人是购买数字人拍短视频最多的群体？

九.一个数字人结合真人IP拍视频，一年需要多少钱呢？

十、数字人一般是怎么收费的呢？

十一、选择数字人公司的服务方案，重点需要关注哪些？

十二、数字人直播的效果到底如何？

十三、AI数字人主播的应用场景主要有哪些？

十四、数字人直播优劣势在哪里？

五、数字人行业整体发展情况如何?