BY
2022年是AIGC爆火出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。2022年12月,OpenAI的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让人不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱AIGC,不断推出相关的技术、平台和应用。近期微软、谷歌等全球计软件互联网大厂大力投入AIGC,并开始探索应用层面的突破,AIGC已经来到2年前自动驾驶的应用突破拐点,今年有望成为AIGC大年。类似ChatGPT的“大模型”作为AIGC的底层平台,将成为AIGC的核心资源。
那么,AIGC究竟是什么?应用场景都有哪些?我国目前的发展现状及商业模式是怎样的?产业链及相关公司都有哪些?如今面临的挑战及未来的发展趋势又是怎样的?下面我们一一了解。
AIGC(AI-Generated Content,人工智能生产内容),狭义概念是利用AI自动生产内容的生产方式,但广义上AIGC已在实现人工智能从感知理解世界到生成创造世界的进击,AIGC代表AI技术发展的新趋势,过去传统人工智能偏向分析能力,而现在人工智能正在生成新内容,通过大量的训练数据和生成算法模型,自动生成文本、图片、音乐、视频、3D交互内容等各种形式的内容,换言之,AIGC正在加速成为AI领域的商业新边界;AIGC也会带来内容创作的变革,如智能数字内容孪生能力、智能数字内容编辑能力、智能数字内容创作能力。
伴随人工智能发展演进,AIGC发展可分为三阶段,早期萌芽阶段(20世纪50年代至90年代中期)、沉淀累积阶段(20世纪90年代至21世纪10年代中期)、快速发展阶段(21世纪10年代中期至今)。
AIGC由于技术限制仅限于小范围实验,1957年已出现首支以计算机传作的音乐作品(弦乐四重奏《依利亚克组曲(Illiac Suite)》),80年代末至90年代中由于高成本及无法商业化进而资本投入减少致AIGC无较多较大成绩。
AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时图形处理器等算力设备不断提升,互联网快速发展,也为类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《I The Road》问世;2012年微软展示全自动同传系统,主要基于深度神经网络(Deep Neural Network,DNN)自动将英文演讲者内容通过语音识别等技术生成中文。
2014年深度学习算法之生成式对抗网络(Generative Adversarial Network, GAN)提出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能创作的诗集《阳光失了玻璃窗》,2018年英伟达发布Style GAN模型可自动生成图片;2019年,Deep Mind发布DVD-GAN模型可生成连续视频。2021年Open AI推出DALL-E并推出迭代版本DALL-E-2主要用于文本、图像的交互生成内容。
我国AIGC在2022年年底受到市场较大关注,2023年开年企业端跃跃欲试,虽行业仍处于刚刚起步阶段,距离大规模证明和体系化发展仍有距离,但从资本的加码到应用场景的探索,距离的缝隙有望逐步填补,同时,“模块分拆+个性化推荐”的“泛AIGC”形式有望持续发展。
AIGC按内容生成类别可划分为文本、代码、图像、音视频四类,根据红杉资本预测,2023年文本、代码生成有望得以成熟应用,其中文本生成可实现垂直领域文案的精确调整,达到科研论文精度,代码生成可覆盖多语种多垂直领域;图像、音视频生成的成熟度相对较低,目前尚处于生成基础初稿的阶段,2030年有望得以成熟应用。
大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。Narrative Science创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。
例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AIdungeon均已获得了不错的消费者反馈。案例:小冰发布小冰岛APP,每个用户均可创造自己的岛屿,并连带拥有一个功能类似于微信和LINE等社交产品的完整社交交互界面。用户不仅能在岛屿中体验丰富的视觉和自然音场,与人工智能个体进行对话,还可以再造完整的一对一对话、群聊、朋友圈和技能生态体验。
泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。
随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
属性编辑部分,可以直观的将其理解为经AI降低门槛的PhotoShop。目前而言,图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAI)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张图像进行风格复刻、NightCafe等)、提升分辨率等已经常见。
图像部分编辑部分,指部分更改图像部分构成(如英伟达CycleGAN支持将图内的斑马和马进行更改)、修改面部特征(metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。
此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimerapainter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。
例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。
基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。目前还主要在技术尝试阶段。典型案例包括Adobe与斯坦福共同研发的AI视频剪辑系统、IBM Watson自动剪辑电影预告片、以及Flow Machine。我国的影谱科技推出了相关产品,能够基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。
视频到视频生成技术的本质是基于目标图像或视频对源视频进行编辑及调试,通过基于语音等要素逐帧复刻,能够完成人脸替换、人脸再现(人物表情或面部特征的改变)、人脸合成(构建全新人物)甚至全身合成、虚拟环境合成等功能。
2021年,OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年,CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年,多款模型/软件证明了基于文字提示得到效果良好的图画的可行性,Diffusion Model受到广泛关注。
在一定程度上,文本生成视频可以看作是文本生成图像的进阶版技术。按照技术生成难度和生成内容,可以区分为拼凑式生成和完全从头生成两种方式。拼凑式生成的技术是指基于文字(涉及NLP语义理解)搜索合适的配图、音乐等素材,在已有模板的参考下完成自动剪辑。这类技术本质是“搜索推荐+自动拼接”,门槛较低,背后授权素材库的体量、已有模版数量等成为关键因素。完全从头生成视频则是指由AI模型基于自身能力,不直接引用现有素材,生成最终视频。
(3)图像/视频到文本
具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本—图像之间的跨模态搜索。代表模型包括METER、ALIGN等。
以腾讯AILab在游戏制作领域的布局为例,人工智能在游戏前期制作、游戏中运营的体验及运营优化、游戏周边内容制作的全流程中均有应用。
可以将其简单理解为人工智能玩家,重点在于生成真实对战策略。2016年DeepmindAlphaGO在围棋中有所展示,随后,AI决策在Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。
此前,NPC具体的对话内容及底层剧情需要人工创造驱动脚本,由制作人主观联想不同NPC所对应的语言、动作、操作逻辑等,这种动态的个性化匹配背后依旧是不同的静态分支,创造性及个性化相对有限。
目前,NPC逻辑自动生成技术已经应用在《黑客帝国:觉醒》(MassAI,车辆行人等将独立于玩家操控变动)、RedDeadRedemption2、Monster Hunter: World等大型游戏中。长期来看,NPC的灵活自主将引领其成为重要的社交节点,有效填充元宇宙的内部架构。
目前“深度合成+计算驱动”型的虚拟人,综合运用文本、图像、音频等生成技术,打造综合外观、面部表情、发声习惯等产出全面拟人化的数字内容,属于AIGC领域。此种多模态生成技术的聚合应用在虚拟偶像、虚拟主播等领域已有广泛应用。
是目前计算驱动型虚拟人应用最为广泛的领域之一,不同产品间主要的区分因素包括:唇形及动作驱动的自然程度、语音播报自然程度、模型呈现效果(2D/3D、卡通/高保真等)、视频渲染速度等。
广泛应用于可视化的智能客服,多见于APP、银行大堂等。在AIGC的虚拟人领域,由于更能够体现AI在个性化、高并发性等方面的优势,我们更强调虚拟人的实时交互功能。
例:小冰虚拟人产品,基于小冰框架的全域底层能力,整合实现了虚拟人形象定制、内容生产、渲染呈现、交互响应等多个关键技术模块,以完备的产品架构支撑多样化的应用场景,如直播、教育、数字员工等,并以此赋能各行各业。
算力、算法模型、应用构成了AIGC产业链。从OpenAI推出的ChatGPT我们发现,ChatGPT依赖于GPT大模型,而GPT大模型则需要依靠微软Azure超算中心提供算力训练,因此我们认为ChatGPT等AIGC产业依然离不开算力、算法模型、应用的基本框架。
AIGC产业链可划分为基础层、中间层、应用层三层架构。
预训练模型是众多小模型的通用基底,为开发者降低AI开发与应用的门槛。预训练模型初始投入成本高、运行成本高,对软件、硬件均提出较高要求,因此涉足该环节的企业以微软、谷歌、英伟达、meta等科技巨头以及OpenAI、Stability.ai等AI研究机构为主。以OpenAI为例,2020年该机构训练GPT-3的硬件及电力成本达1200万美元;以meta为例,为了提供更强大的算力支撑,meta携手英伟达、Penguin Computing及Pure Storage打造AI超级计算机RSC,其测试数据显示,RSC训练大型NLP模型的速度提升3倍,运行计算机视觉工作的速度提升20倍。
中间层厂商基于预训练的大模型生成场景化定制化的小模型,帮助不同行业和垂直领域实现 AIGC 的快速部署。在预训练模型基础之上,开发者可根据不同行业、不同功能场景生成相应的小模型,基础层企业向中间层延伸为顺势而为。此外,基础层企业还可扮演MaaS(Model-as-a-Service)服务提供方,将其模型开源给更多企业以二次开发模型,如Novel AI基于Stability.ai的开源模型Stable Diffusion开发出二次元风格AI绘画工具。
应用层是指面向 C 端提供 AIGC 相关服务, 典型企业包括微软、meta、百度、腾讯,阿里巴巴等。基于基础层、中间层的模型及工具,应用层企业可将其重心放在满足用户需求乃至创造内容消费需求上,AI写作、AI绘画等AIGC应用已在营销、娱乐、艺术收藏等领域落地。以国内企业为例,视觉中国依托其数字版权内容优势布局AIGC数字藏品,借力AI持续扩充艺术多元性,截至目前多轮发售的AIGC数字藏品均已售罄;蓝色光标机器人小蓝博面向广告主推出AI绘画、AI写作工具,其中AI绘画工具创意画廊可生成抽象风格画作以适配不同营销场景。
ChatGPT是由OpenAI公司开发的一个人工智能聊天机器人程序,于2022年11月推出。ChatGPT上线5天内,用户量就突破了百万,两个月后又直接突破了一个亿,成为历史上增长最快的消费应用。ChatGPT能够通过学习和理解人类的语言来进行对话,能根据聊天的上下文进行互动,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。ChatGPT是自然语言处理领域的前沿研究成果之一,现已成为AIGC里程碑式的产品。
ChatGPT火爆背后,折射出AIGC在全球的蓬勃发展。ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望带动AIGC在图像、音乐、视频等其他领域落地。随着AIGC在国内消费互联网领域日趋主流化,涌现出写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着传媒、电商、娱乐、影视等领域的内容需求,市场潜力逐渐显现。据CBInsights统计,ChatGPT概念领域目前约有250家初创公司。未来两三年,与AIGC相关的初创公司和商业落地方案将持续增加,等到2030年AIGC市场规模或将超过万亿。
相比于传统AI对话模型,ChatGPT具备多项优势功能,从而实现应用价值和使用体验的显著提升:1)能够认知自身不足并进一步提出跟进问题以更好解答用户问题;2)能够理解上下文,实现连续对话,提高用户交互体验;3)能够质疑用户提出的不合理问题与前提假设;4)能够拒绝用户提出的不合理/不合法请求与问题。
相较于OpenAI此前研发的GPT1-3,ChatGPT核心技术优化在于引入RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)的训练方式,从而在训练中增强了人类对模型输出结果的调节,促使模型输出结果更具备理解性。RLHF训练框架主要分为三步:1)在初步模型中AI训练师同时作为用户和AI角色,协助AI创作期望的回答,通过监督学习的方式优化模型的输出结果;2)训练师根据模型对同一个提问所做出的不同输出结果进行排序,并通过该数据训练出奖励模型;3)根据奖励模型对模型输出的结果进行打分,运用强化学习算法PPO不断迭代和优化模型输出。
中国AIGC产业仍处于发展初期,底层技术相较国外仍有较大差距。国内最先兴起的是AI写作和语音合成模块,虚拟人概念刚兴起,但技术层面仍有差距,众多国内厂商从内容布局入手,同时众多厂商目前商业模式不成熟,还停留在免费引流阶段。此外,AIGC目前主要客户集中在B端,厂商话语权较弱,未来会向2B+2C方向发展,B端降本增效是根本诉求,C端对个人的赋能也是值得关注的方向。
微软与OpenAI深化合作,AIGC商业化加速到来。1月23日,微软官方宣布在与OpenAI将进一步深入合作,将在未来数年内追加投资数十亿美元以加速AI技术推向大众。微软正在迅速推进OpenAI的商业化,将目前的ChatGPT、DALL-E等AI工具整合进微软旗下的全部软件,例如Bing、Office等,为用户带来更高效的交互体验。更值得关注的是,微软将提供AI云服务AzureOpenAI,允许开发者在OpenAI的模型基础上搭建自己的应用,从而加速AI技术的商业化落地。
OpenAI作为AIGC行业龙头,已开始商业化之路,一方面自己作为模型基础设施,赋能搜索引擎、办公软件提高效率和用户黏性;另一方面借助合作伙伴的算力基础设施,为后续底层硬件拓展打牢基础。
AI虽已发展多年,但在诸多领域的应用更像经过专业学习的“专科生”,而今基于大模型的AIGC更像接受过通识教育的研究生,虽然在发展初期在特定专业领域功能有限,却有着更强的可拓展性。因此,我们预计,当2023年GPT4模型发布之后,“AIGC+”将成为全球性的趋势。底层的大模型与数据集将成为下一个科技时代,真正意义上的“IT基础设施”,既有垂直领域的价值也不容忽视,正如OpenAI与微软的合作,通用AI的显性化趋势将日益显著。
AI具有通过自动执行各种任务、提高效率和启用新的经营方式来转变商业模式的潜力。随着技术的进步,AI已经不再像过去那样与硬件、系统等一起打包进行商业化落地了。对于普通人来说也不再是一门遥不可及的尖端技术。AI变成了一个普通人也可以轻松运用、提升效率的工具,这预示着AI的商业模式更加显化。
虽然AIGC使C端用户以较低的门槛使用AI生成内容,但目前来看,toB仍然是核心商业模式。对于C端用户来说,缺乏长期持久的需求,大多数只是一时兴起的好奇体验。而对于B端客户来说,他们的需求和付费意愿是较为稳定和长久的,这主要有以下两个核心原因:
AIGC替代了部分原本应该由原创人员承担的工作,例如网站内容编辑、美工等,假设人工成本在100万,而AIGC能够降低50%以上,那么企业将有充足的动力进行机器替代,其实这一过程正在发生,尤其在一些垂直领域,例如体育、金融、汽车等。除了新闻稿件类,AIGC生成图片也被应用在新闻稿或自媒体的插图或封面上。相比原先在素材库找图的效果更贴合文章,也减少了找美工的费用并提升了效率。但在这一领域,文字的需求大于图片,一方面是由于工作的完成度另一方面是由于本身的市场空间。
部分toB应用具有项目制的特点而难以被满足,我们称之为需求鸿沟。例如,IP矩阵的构建,当需要对大IP构筑包括电影、电视、游戏、动漫、手办等周边产品时,需要大量各类原创作者对IP矩阵进行丰富,这是一个费钱且费力的漫长过程。内容供给方因工作量巨大而无法提供大量原创稿件,而需求方因看不到内容而无法买单。未来基于AIGC,原创内容方可以以少量手稿,借助模型的帮助,大量生成内容,由于扩散模型的存在,这种“白盒+黑盒”式的内容生成甚至带有“二创”的意味。若能在AIGC的帮助下跨越需求鸿沟,则大型B端项目更容易实现。
即使由于技术的发展使得AIGC变得普及,我们依旧认为当下阶段,toB端才是主要的商业模式方向,核心原因在于对于B端带来的效率提升是切实的,也能够填补原本很难完成的需求对接,因此客户付费意愿较强。
随着AI模型与算力的发展突破了可用的临界点,AIGC对个人的赋能也是值得关注的方向。在极小的边际成本下,AIGC应用能够大幅度提高个人的信息处理效率以及内容输出质量,而这类技术又可能反作用于生产关系的演变。
因此,面向C端的AIGC应用,可从两个角度来探讨其商业价值:第一是作为效率工具,诸如传统的笔记、日程管理等工具,AIGC应用能够在信息获取、格式整理和工作流等各个流程提高个人用户的效率,并且AI模型作为基础设施能够集成到现有的工作流程中;第二是作为创作工具,像剪辑、修图软件一样,AIGC能够在UGC内容流行的今天,大幅度降低大众用户的创作门槛,强化个人媒体的IP价值。
从商业角度而言,将AIGC作为底层基础设施的SaaS订阅将成为中长期趋势,目前Midjourney等企业已有类似尝试。用户付费的逻辑在于以下几个方面:更高效的信息获取方式;从辅助表达到替代表达;集成到已有的工作流;扩大用户创造力。
AIGC的意义在于提高内容生产力、打开内容创作想象空间,这或许也是巨头争相加码AIGC的原因所在。从现有的应用场景来看,AIGC已经可以替代部分重复劳动力,并协助部分创造性劳动,未来AI技术的发展有望不断降低内容生产成本、提高生产效率并拓展内容边界。
1月23日,微软宣布与OpenAI展开全新合作,未来将追加投资数十亿美元,2月2日,微软宣布旗下产品将全线整合ChatGPT,对于微软而言,ChatGPT在拟人化交流、即时生成内容等方面对必应(Bing)的赋能有望助其突破谷歌的桎梏,作为回应,谷歌即刻投资Anthropic并计划推出类似于ChatGPT的大型语言模型。除了加码AI文本、代码生成以外,海外巨头如meta、Netflix亦着力布局音视频等内容生成,未来人机协同或是大势所趋。
麦肯锡分析亦显示,全球数字化劳动力市场规模将迅速扩大,
在AIGC的应用场景中,率先看到商业化的是2C的订阅。从现有技术成熟度结合现有的需求成熟度看,从实时互动内容、直接生成内容、个性化内容、2C内容生成工具、2B内容生产工具、合成数据生成等维度看,2020年AI技术在数字商业核心产业链综合商业规模达1210亿元,伴随AI技术应用延展,在数字商业的渗透率也将不断提升。到2025年,AI数字商业市场规模或将达6188亿元(年均增速38.6%),2025年预计中国AI数字商业中数字服务与数字商业内容市场规模分别占比59%、24%(如下图所示),从复合增速看(2020年-2025年维度)数字商业内容与数字服务分别为达到49.9%、40%,而该部分均集中在B端,数字商业正成为继互联网商业后的重要形态与力量。
2023年人工智能从学术研究逐渐走向产业化,商业与AI技术的融合形成互为支点的发展格局,进入产业规模商用期。人工智能技术将不断地对AI数字商业的各个领域进行渗透。据量子位预测,2030年AIGC市场规模有望超过万亿元。在内容领域,人机协同,对于存量业务,AIGC的价值在于降本增效,对于增量内容其价值在于跨模态的内容生成等。
据Gartner的“人工智能技术成熟度曲线”,生成式AI仍处于萌芽期,但其广阔的应用场景和需求空间吸引大量资本和技术的投入,预计将在2-5年内实现规模化应用。AIGC有潜力产生数万亿元的经济价值,AIGC繁荣发展,将促进资产服务快速跟进,通过对生成内容合规评估、资产管理、产权保护、交易服务等构成AIGC完整生态链,并进行价值重塑,充分释放其商业潜力,至2025年中国生成式AI商业应用规模至2070亿元。
公司旗下“元视觉”艺术网共发行已收录入“元视觉”艺术网“AIGC”专辑的艺术作品;并与腾讯会议达成合作协议,入驻腾讯会议应用市场,为腾讯会议用户提供包括插画、摄影图片、动态图片以及AIGC-人工智能生成图片在内的各类虚拟背景图片。2023年1月公司与百度达成战略合作,共探AIGC落地新场景,此次合作是国内版权图库与AI作画平台达成的首个战略合作,具有标志性意义。视觉中国是国内较大的视觉内容互联网版权交易平台,百度文心一格是AI作画这一新兴领域兼顾创新与实用的代表性平台。双方在AIGC赋能内容创作上的积极探索,展现了AIGC的多元商业价值。
A股主板上市公司,中国数字科技应用领域龙头企业,长年积累的CG特效、人机交互、裸眼3D、全息影像、VR/AR、AIGC及大数据可视化等关键技术手段,公司的产品及系统广泛应用于政务服务、文化体验、数字展示、文化旅游、新零售体验及数字艺术消费等众多领域。元宇宙时代,风语筑将充分发挥公司在3D建模、空间设计、CG视觉、人机交互等领域的传统优势,为元宇宙用户搭建3D数字化场景、打造沉浸式交互体验,共同运营元宇宙虚拟数字空间,力争成为元宇宙时代虚拟世界的3D数字化场景服务商和3D数字空间运营商。
新技术只有应用才有生产力的提升,进而重构生产关系,公司在客户端、内容营销案例端均累积大量素材,利于模型训练,具有较好场景价值。2022年年底蓝色光标销博特发布AIGC“创策图文”营销套件,该套件结合内容营销业务“Know-How”提供从创意、策划、文案、图片等内容一体化智能生成解决方案,通过AI技术让Web3.0时代的内容营销实现实时在线、即刻生成个性化内容,构建更有情感、更富质感、更具体验感的新营销方式,实现个性化内容营销。
销博特在创意和文案自动生成领域已获得三个软件著作权(创意机、品牌主张、国风文案);同时,在策划案自动生成领域,销博特团队在品牌定位方面结合NLP技术并引入数学向量运算,将心智定位转化成一道道数学题,由此形成的品牌定位支持向量机专利正在受理过程中;此前发布的“康定斯基”模型的相关专利和软件著作权也正在申请中。.
浙文互联旗下米塔数字艺术社区率先推出米画创作工具升级版“AI绘画”,历经多轮算法升级,米塔“AI绘画”全面支持当下流行的绘画类型,准确度持续攀升,成为数字艺术创作领域的明日之星。以米画为代表的AI绘画工具,正在改变数字艺术创作者的绘画方式,目前,米塔“AI绘画”对于二次元动漫等绘画形式已经有了高准确度的支持。下一阶段,米画AIGC算法还将持续升级,对于全彩CG、国风、插画、蒸汽朋克等流行绘画类型做出进一步优化,带来更加专业的AI绘画创作体验。
公司已推出AI主播、AI绘画和AI文字创作功能,并在研发推动更多AIGC功能落地。其中AI主播已在有声书生产中应用,根据文字故事情节的真实语境,用独创的情绪情感控制模块,结合语音深度学习合成技术,真实还原角色情感,生动模拟人声音色以塑造角色,讲述故事。AI文字创作功能已在17K小说网上线,可自动生成文字内容,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写用于作品使用,目前可针对人物、物品等进行AI文字创作,并针对不同的作品类别古风、都市等进行不同的内容适配。未来,随着技术的迭代更新,Al可在更多应用领域提升内容创作效率,产出更多精品内容,降低成本,扩大更多AI内容衍生品类。公司背后AIGC的技术提供方是澜舟科技。
公司推出三个产品天工巧绘SkyPaint、天工妙笔SkyText、天工智码SkyCode背后依赖中文大模型,后续公司将持续优化模型,第一个方向是紧跟业内先进水平,要训练自己的ChatGPT;第二个方向是要让文本生图、文本生代码、以及文本生文本向实际应用上靠近。
公司作为元宇宙应用领域的数字科技企业,依托数据、算法、场景三大核心优势,基于对元宇宙数字科技应用需求及痛点的深入理解、挖掘,在需求牵引与技术驱动的双重因素作用下,通过自研的多模态智能算法与AIGC相关技术,升级发布“metaSurfing-元享智能云平台”,在原有功能基础上纳入AIGC功能模块,从而提升专业人员的生产效率,填补供需间的差距。天娱数科旗下元境科技自主研发的“metaSurfing-元享智能云平台”的升级上线,进一步实现从文本、音频等低密度模态向图像、视频、实时交互等信息密度更高模态的转化,正式宣告天娱数科全面迈入智能时代。通过低门槛、高效率、批量化为产品核心思想的生成能力广泛服务于各类内容的相关场景及生产者。
阿里巴巴智能设计实验室于 2017 年自主研发了鹿班,该产品基于图像智能生成技术 ,可 以改变传统的设计模式,使其在短时间内完成大量 banner 图、海报图和会场图的设计,提 高工作效率。用户只需任意输入想达成的风格、尺寸,鹿班就能代替人工完成素材分析、 抠图、配色等耗时耗力的设计项目,实时生成多套符合要求的设计解决方案。根据用户输入的需求,机器从无到有经过规划、行动多轮大规模计算,生成符合用户需求和专业标准 的视觉图像。在 2017 年双 11 中,Luban 每秒可以生成 8,000 张海报。
百度持续在 AI 产业链保持高强度投入,公司搭建的文心大模型体系是业界规模最大的产业 大模型体系之一,覆盖 NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型等多领 域的大模型服务。同时,基于底层大模型,百度提供包括大模型套件、大模型 API、AI 内 容生成平台等AIGC工具与产品应用。百度在2月7日宣布其类ChatGPT产品“文心一言” 即将推出,该产品的推出有望进一步推动文心大模型应用的普及与落地。
腾讯在 2022 年 4 月首次对外披露“混元”AI 大模型研发进展,该模型集 CV、NLP、多模 态理解能力于一体,先后在 MSR-VTT、MSVD 等五大权威数据集榜单中排名第一。2022 年 12 月腾讯“混元”AI 大模型推出国内首个低成本、可落地的 NLP 万亿大模型,并再次 在自然语言理解任务榜单 CLUE 中排名第一。
2022 年 5 月腾讯 QQ 影像中心便在 QQ 小世界推出国内第一款基于 AIGC 的“AI 恋爱专属 画”520 活动。QQ 影像中心将输入模型的提示词分为两图片主体内容描述和风格描述,能 够稳定生成画面精致、风格突出的结果。此外腾讯旗下人工智能实验室腾讯优图实验室长 期聚焦 AI 相关能力研发,2022年推出了腾讯云神图·人像变换,基于腾讯优图领先的人脸 识别算法,提供人脸年龄变化、人脸性别转换、人像动漫化等能力。
AIGC是PGC、UGC之后,全新的内容生产方式。不仅能提升内容生产的效率以满足我们飞速增长的内容需求,也能够丰富内容的多样性。在2022年百度世界大会上,李彦宏提到了:“AIGC将走过三个发展阶段:第一个阶段是“助手阶段”,AIGC用来辅助人类进行内容生产;第二个阶段是“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三个阶段是“原创阶段”,AIGC将独立完成内容创作。未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。我们可以发现在二次元或抽象的图片生成中,AIGC的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。不同的应用平台,输入几乎一致信息点的文本,生成的图片的质量和内容差距是巨大的。
造成以上的这些问题和差距的原因在哪里呢?我们依旧可以从AIGC的工作原理上来分析:自然语义的理解在处理一些空间关系上还存在一定的误差,这也是为什么在空间位置、数量上存在不精确的问题。目前文本生成图像时,需要用到文本编码器将文字映射到图像上。当前主流的、训练完善的是来自与OpenAI的Clip模型,其函数是开源的,但训练的数据集是封闭的。AIGC需要大量的良好画质的文本-图片对才能训练到Clip这样的程度。从Clip本身公开的信息来看,它使用了超4亿个文本-图片对来完成训练,这些都是基于英文的。运用的AIGC生成算法不同也会导致产生的内容的差距;数据集的质量、合规性、风格偏向都会决定生成的内容质量。
以上,我们可以看到若要使得AIGC生成的内容真正高效地被运用在商业层面,那么自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。
从应用软件方面,自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。更深入地来看,以上这些的发展需要依托于算力、数据的支持。所以未来的发展重点将更着力于大模型、大数据和大算力的方向去发展。同时,为了让功能更加精确,将会更多地去开发一些垂直类的应用,毕竟垂直类的应用可以更有针对性地为特定功能进行训练,成本相对较低。
从PGC到UGC再到AIGC,AIGC能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要AIGC能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在AIGC的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着AIGC逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达A100、H100出口受限,相关国产算力芯片将有机会获得增量市场。
从主题投资的角度看,区块链、元宇宙、Web3均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT等只是其中的具体应用之一。我们认为,AIGC将是推动数字经济从Web2向Web3升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3开放、共建的价值观下,UGC、AIGC的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前AIGC已成为硅谷最新热门方向,国内一级市场、互联网大厂等对AIGC应用关注度也在快速提升中。
2022年被称为AIGC元年,这一年AIGC取得了里程碑式的成绩,引发了市场广泛热烈的兴趣,我们认为主要因素是:
包含扩散模型在内的关键技术取得突破,技术可用性显著提高,产出效率不断提高,产出效果出现分水岭,技术转化为生产力的契机产生。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的模态大为丰富且可支持跨模态产出,可支持AI插画,文字生成配套营销视频等常见应用场景;
通过国内外科技公司的应用转化,技术进入民用领域,引起了广大行业从业者、文娱爱好者和投资人的关注。“智能图文转视频”和AI作画成功破圈,相关应用迭代速度呈现指数级爆发。以AI作画工具为例,水平上限有长足进步,虽发挥并不稳定,但结果输出极快,可量变引起质变,弥补其在创意、想象等方面的不足,满足一般市场需求。