数字人主播、数字人客服、虚拟代言人……你身边出现数字人“同事”了吗?现如今,越来越多数字人活跃在各行各业里,直播带货、讲解知识、播报新闻、形象代言等等。就在这个五一假期期间,当大家放假时,不少数字人上岗了。
若仔细对比就会发现,与前几年比,数字人的外形越来越逼真,和人的互动也越来越顺畅了。数字人究竟到了什么阶段?前不久,Create2024百度AI开发者大会上,智能体这一关键词被反复提到。所谓的智能体机制,包括理解、规划、反思和进化,它让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和进化。随着大模型和数字人等AI技术的持续进步,数字人作为“有形象的智能体”无疑在越来越多的场景中迎来了新的使命。
低成本数字人“上播”
“江苏非遗传承人用数字人全球卖货”这一话题,曾在社交平台上受到关注。话题中的主角是江苏60多岁的茶农江康林,也是非遗传承人。而他则通过数字人直播,将茶卖向了全国。
“没想到有一天我也能当上主播。”在去年的百度世界大会上,他说道。看着手机里直播间有用户涌入和下单,江大爷说:“AI生成的带货剧本非常有文化底蕴。种茶,我是行家;带货,他是行家。”
对江大爷来说,种茶不难,难的是把茶卖出去。让他没想到的是,AI技术能为年逾六十岁的老人带来转变。为江大爷带来销售转机的是百度慧播星平台。作为百度优选旗下、业界首个AI全栈式数字人直播解决方案,慧播星为江大爷量身定制了属于他的数字人直播间。
据百度视觉技术团队的冯浩城介绍,江大爷的数字人利用数字人生成技术复刻形象,运用AI语音克隆技术复刻江大爷的声音,AI一键生成直播脚本,并为江大爷“装修”了数字直播间。就这样直播间所需基本要素齐备。
通俗来讲,就是直播间里的数字人江大爷,外貌、声音、动作看起来和真人一模一样。虽然制作数字人的速度快,但背后的技术探索却是一步一个脚印。据冯浩城介绍,直播数字人需要做到唇齿清晰和形神兼备,因此要通过算法驱动数字人唇型与发音保持一致,还原说话人风格。百度视觉技术团队综合大模型、3D建模等技术,研发了一整套覆盖2D/3D建模、驱动、渲染全流程的技术方案,保障好数字人形象展示效果,使数字人更接近真人,并大幅降低使用成本。
“动辄几十万甚至上百万的数字人,对普通人来说可望不可及,对中小商家来说也难以接受。我们研发目标就是不断降低数字人的应用门槛,甚至一张照片就能生成数字人,让每个人、每个商家都可以拥自己的数字人,扩大自身的品牌影响力,这样也就践行了我们的使命,用科技让复杂的世界更简单。”冯浩城表示。
在视觉技术团队探索下,百度数字人相关技术创新势头迅猛,相关技术持续积累。根据2022年的相关专利分析结果,百度数字人专利申请量就已经国内第一,以百度公司为代表的人工智能企业成为数字人技术研究的主要力量。在大模型技术的加持下,数字人技术焕发出新的“生机”,百度大模型技术的优势正推动着数字人走上更智能的应用舞台,变得更加生动、智能。根据国家工业信息安全发展研究中心、工信部电子知识产权中心2024年4月发布的《新一代人工智能专利技术分析报告》,百度新一代人工智能专利申请1432件,授权651件,国内排名居首,是该领域技术创新和专利布局的领军者。
除了让数字人形象更贴合真人,AI技术也正在打破语言壁垒,让更多用户打造出堪比真人、更具互动性数字人。
“语料”的挑战
喜欢看直播的网友都知道,一场直播下来,有的主播能侃侃而谈几个小时,“花样”介绍品牌或产品等信息,有的主播还能引经据典,聊生活、聊文学等。
对数字人研发者来说,如何保障这些“语料”持续输出,让语音贴合真人声音也是个挑战。其实,文字转语音技术较早已较成熟,比如地图导航等方面的应用,却不适用于直播场景,营造不出抑扬顿挫的直播氛围。
慧播星网站页面
如何让数字人的语音更符合直播场景?百度电商慧播星团队和语音技术团队联动,组成攻坚小组,研究出符合直播带货场景的文字转语音能力,并利用直播场景收音设备、面向业内直播供应商采集“语料”、训练语言大模型等,由此复刻主播声音,达到类似真人声音的效果。
在给一家企业的高管制作数字人时,因对方的时间原因,无法配合收集三四个小时的“语料”,百度技术团队则在录制20分钟语音素材基础上,完成了语音复刻,用较低的成本方案达到用户所需要效果。
市场需求得以快速满足的背后是百度语音技术的深厚积累,截止目前百度语音相关专利申请量已经近2000件,领先优势明显。面对数字人在不同应用场景中对于语音能力的需求,百度语音技术团队已经在语音合成技术领域积累大量专利,包括声音拟合、声音互动、数字人唇部动作等细分技术领域。基于这些技术,百度逐步突破数字人语音技术难点,形成更接近人声的解决方案。
没有主播、没有运营团队,也能直播带货,这让商户看到机会。现如今,慧播星已覆盖农业、服饰、美妆、家居日用品、教育等电商领域的中小企业和个体商户,为众多缺乏直播经验和技术知识的商家提供直播解决方案,只需要5分钟,就可以搭建一个专属数字人直播间。此外,一些品牌商家通过使用“真人+数字人”的模式开播,实现7*24小时不间断直播,均取得不错的带货效果。
百度电商慧播星团队的周慧回忆道,2023年初一个卖益生菌的商家成为了最早在百度优选上试水数字人直播带货的商户,带给他们莫大的鼓舞。在她看来,很多商家有生产能力和产品,但不懂线上营销,想尝试直播带货就要招聘主播、运营团队、准备设备、租赁场地等,成本不低。慧播星则通过智能问答、智能脚本、智能场控,构建电商直播领域超级智能体,解决商户难题。其中,借助文心一言生成智能脚本,更是为不善于直播的商家提供“脚本”支撑。
慧播星中可生成多种风格的脚本
“不仅商家,中国有很多内容创作者,比如百家号上有大量具有内容生产能力和粉丝基础的博主,但有的人却不擅长出镜,而数字人则是一个突破口。”周慧谈道,目前他们团队正积极在这一领域推动数字人的落地应用。
百度的数字人直播,除了在百度电商已经得到广泛应用且取得不错效果之外,现在也已经开始对外输出,支持客户私有化定制并在其他平台开播。以数字人直播带货为代表的百度数字人商业化之路也正在加速推进中。
能否走好商业化之路?
前几年,数字人应用市场刚起步,很多想利用数字人做营销或代言的企业或商家,往往抱着试一试的心态,但没有继续经营下去。近两年来,随着数字人技术的成熟,企业和商家们对数字人的热情持续高涨。
据百度智能云曦灵数字人产品团队的张晓东观察,现如今企业或商家在定制数字人时,需求很明确,知道想要什么。以百度为代表的企业,也在推进数字人商业化。据了解,今年二季度百度智能云曦灵数字人业务表现超过一季度,一季度表现好于去年同期。
貂蝉数字人直播画面
在文旅火爆的当下,越来越多数字人“代言人”走向大众视野。近年来百度也为地方文旅成功打造了历史人物的数字人。甘肃省定西市临洮县是貂蝉故乡,临洮县人民政府和百度智能云曦灵合作开发了3D智能“貂蝉”数字人形象。
通过3D数字人技术,他所在的团队成功将貂蝉塑造成具有现代感的3D形象,在短视频平台直播中受到年轻人的欢迎,成为宣传当地的“数字代言人”。据张晓东介绍,3D数字人技术除了可以“复活”历史人物,好看的动漫人物、文化名人、企业代言人也都可以通过3D数字人相关技术出现在大众视野。
随着数字人广泛应用于媒体宣传、文化旅游、电商直播、金融服务等多个领域,对于数字人的制作成本和效率也提出了更高的要求,尝试让AI来制作数字人成为一个必然的研究方向。而因为3D数字人在制作过程中涉及大量长相、妆容、发型、穿搭等与现实世界紧密相关的需求,这既考验着大模型的审美搭配能力,也对大模型理解用户需求的能力提出了挑战,为此百度智能云曦灵数字人产品团队做了大量探索工作,目前已经实现文生数字人技术上的突破,即输入一段话描述想要的数字人,就能简单高效地生成3D数字人。
据张晓东介绍,3D数字人已经能做到好看,但在妆容、发型、服装等方面还有很大改进空间,因此,随着技术的不断进步,还要持续训练微调,让大模型用更接近人的思维来生成数字人。而生成出来活灵活现的数字人,也正是智能体最好的呈现形式之一。
当前,在数字化转型浪潮中,全球AI数字人业务正释放潜能。据管理咨询机构凯捷咨询报告,超四分之三受访企业正实施或规划实施人工智能技术,其中77%企业表示可提高生产效率,62%企业认为可提高客户体验。艾媒咨询发布的报告则显示,2022年中国虚拟人核心市场规模120.8亿元,同比增长94.2%,预计2025年将达480.6亿元。
对数字人提供商来说,能否抓住数字化转型机遇,关键是走好商业化之路。在大模型技术的加持下,数字人无疑站在了市场需求的潮头,百度的大模型和数字人等相关AI技术已经为商业化之路打下了坚实的基础,专利作为技术创新的结晶,也助推着数字人开辟新的应用场景。4月25日,百度“专利运用赋能AI产业高质量发展”论坛上发布的《百度人工智能创新与专利白皮书2024》,展示了百度在AI大模型、软件框架、芯片、AI原生应用、新一代智能计算操作系统、自动驾驶等方面的专利优势。可以预见的是,这些技术优势也必将像数字人一样,在更多领域释放出更大价值,为人们的生产、生活带来更多收益。
以上就是本篇文章【5分钟生成,数字人直播带货这么简单了?】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/quote/11056.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多