声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:石濑,授权转载发布。
谁能想到,现在外网最抢手的AI视频生成模型,不是Sora,也不是Runway或Pika,而是国产大模型“Kling(可灵)”。
可灵视频合集在X..上获得数百万浏览量
由于生成视频效果惊艳,可灵在国外获得了“中国版Sora”“Sora杀手”等称号。
除了拿可灵与Sora进行比较,不少国外网友为了用上可灵,不仅以发中文、制作表情包等形式花式求号,而且由于不认识中文,获得了测试权限的AI艺术家、X博主“Dustin Hollywood”表示自己是通过辨识图标来学习操作可灵,并直呼“玩到手机发烫”。
苦等Sora许久的国外网友,还寄希望于可灵的爆火能够倒逼OpenAI开放Sora访问权限。
这款被国外网友予以重任的“中国版Sora”——可灵大模型,由快手AI团队自研,是Sora级面向用户开放的文生视频大模型。
据可灵官网显示,该模型不仅采用了类Sora的技术路线,还融入了多项自研技术,能够生成长达2分钟、30fps的1080p高分辨率视频,并且支持多种宽高比。
同时,与Sora一样,能够模拟真实物理世界,生成具有大幅度合理运动的视频。
官网地址:https://kling.kuaishou.com/
目前,可灵已登陆快手旗下视频剪辑工具快影App,开放邀请测试。只需下载应用,在主页找到“AI创作”点击进入,找到“AI生视频”即可申请内测。
可灵爆火出圈,有消息称已经火到排队内测人数已超5万。我们拿到测试资格后,时间对可灵和Sora进行了一番对比测试。
实测过程中,我们发现可灵在多种类型视频生成上相比Sora展现出显著优势。此外,测试过程中也遇到了一些问题,并通过渠道得到了部分问题的解答。
对标Sora,可灵有多能打?
尽管Sora目前尚未开放测试,但官方已经发布了一些测试案例,并为它们提供了相应的提示词。
基于这些信息,我们对可灵和Sora生成的视频进行了对比分析。
动物类镜头
提示词:一只猴子在公园里下棋。
可灵:
Sora:
在没有提示词要求的情况下,可灵和Sora都倾向于生成写实风格的视频。不同的是,可灵在生成视频时并未遵循文字提示中的具体动作——“下棋”,而是展现了猴子拿着一张纸的场景。
与Sora相比,可灵这轮生成的视频出现了肉眼可见的技术瑕疵。例如,视频中当猴子转头时,眼部出现了重影。
不过,令人惊喜的是,我们将Sora一个翻车视频的提示词投喂给可灵后,最终生成的视频在手机上的观看效果相当不错
提示词:一只中等体型、看上去很友善的狗狗走过工业停车场。环境多雾、多云。采用35mm胶片拍摄,色彩鲜艳。
可灵:
AI视频生成会在物理方面遇到困难,尤其是运动主体移动时的腿部动作容易“露怯”。
早前Sora生成的视频是侧面视角,所以观众可以明显地察觉到狗狗在行走时腿部的不自然交叉。而可灵生成的镜头,通过让画面主体从景深处走向镜头的方式,巧妙地避免了这一问题。
人物类镜头
提示词:一位时尚的女性走在东京的街道上,街道两旁是温暖的霓虹灯和生动的城市招牌。她穿着一件黑色皮夹克,一条长红裙,黑色靴子,并携带着一个黑色手提包。她戴着太阳镜,涂着红唇膏。她自信而随意地走着。街道是潮湿且反光的,形成了彩色灯光的镜面效果。许多行人在周围走动。
可灵:
Sora:
这条视频是Sora当时颇为出圈的一条视频。根据相同的提示词,可灵生成的女性形象基本符合要求,但明显的问题在于人物面部在动态效果中的处理有所欠缺。
超现实镜头
提示词:由树叶构成的大象在丛林中奔跑。
可灵:
Sora:
可灵这轮没有遵循提示词要求生成一只由树叶构成的大象,导致画面缺少了Sora视频中那种超现实与写实相结合的效果。与其他创作者的反馈类似,可灵在想象力方面的表现比较“中规中矩”。
风景类镜头
提示词:摄像机缓缓下降并扩大视野,展现出一幅宏伟的全景视角,俯瞰着美丽的海洋和沿海历史建筑……
可灵:
Sora:
风景类镜头上,可灵和Sora在整体表现上各有千秋,没有明显的差异。我们让GPT-4o根据静态图像,对两个视频的构图、色彩进行了专业点评:
可灵在色彩饱和度和构图上表现优异,但真实感稍有欠缺;而Sora在层次感和色调上更胜一筹,但光影效果和背景处理上有待提升。
实测下来,可灵仍然存在AI视频模型的通病,在人物行走、人物面部表情的处理上显得不够自然,以及在场景的真实感和动态连贯性方面还有提升空间。
虽然生成的视频在手机端的小屏幕观看时表现尚可,但在大屏幕(如电脑端)上观看时,人物面部表情扭曲,动作僵硬等问题会更加明显,多少还是有些“诡异”感。
但整体而言,不知道屏幕前的玩家是否有相同感受,可灵生成的视频更有“中国味儿”,且在写实风格上对真实世界还原度很高。
尤其在涉及国风元素、亚洲面孔以及现实生活场景的镜头表现上,相比海外模型,可灵能够更准确地生成富有中国文化特色的镜头。
下面这些镜头都由可灵生成,自带浓浓的“老铁味儿”,这下谁能分得清快手和可灵啊。
提示词:端午节日气氛的街道
提示词:端午节日气氛,赛龙舟
需要说明的是,本文测试环节所展示的可灵镜头均为直出,并没有多次“抽卡”。而Sora的测试镜头则来源于官方发布的内容。因此,这两者之间的对比仅供读者参考,以提供一个直观的比较视角。
在测试过程中,我们和其他创作者一样也遇到一些问题。例如,据称可灵能够生成长达2分钟的1080p高清视频。经实测目前开放版本仅支持720P、5秒视频生成。
我们从快手官方获悉,目前一键生成2分钟时长的视频功能尚未对用户开放,会尽快推出。
由于可灵搭载在快影App上,整合了一系列视频创作功能。用户生成的视频可以通过点击界面右上角的“去剪辑”按钮,进行下一步视频处理,如提升分辨率、改变画幅比例等,对整个视频创作工作流来说相当丝滑。
此外,用户还可以一键将处理好的视频发布到快手..,从创作到分享,“自产自销”形成完整闭环。
国产视频大模型加速追赶,
快手带动新一轮AI视频创作潮
Sora爆火后,国产类Sora视频大模型纷纷涌现,引发行业热烈讨论和高度关注。
从学界到业界,从大厂到初创公司,国内众多科技公司和研究机构纷纷加入到新一轮视频生成技术竞赛中,一时间谁是“中国版Sora”的竞争变得尤为激烈。
如清华大学联合生数科技发布的“Vidu”,号称是中国长时长、高一致性、高动态性视频大模型。近期官宣迎来新一轮技术迭代,支持一键生成32秒视频和音视频合成。
同一时期,世界模型公司“科技”联合清华大学自动化系发布模型原生16秒时长、端侧可用的Sora级视频生成大模型“视界一粟 YiSu”。
快手可灵正是在这背景下推出并在海内外爆火的。
与其他模型相比,快手可灵不是预发布、也不是官方演示合集,而是直接面向公众开放测试的产品级应用。发布即上线吸引了不少创作者、AI爱好者关注试玩,由此引发的二次传播,为其海内外爆火贡献了重要力量。
可灵AI,赞153
复刻Sora短片《气球人》,来自可灵首批创作者@温维斯Wenvis
可灵AI,赞628
当动物音乐团演奏周杰伦,来自可灵首批创作者@炼丹师忠忠
可以说,可灵的出现甚至促进了海外对AI视频生成的新一轮讨论和创作热情。
为了找可灵代餐,X上不少AI圈博主收到消息称,海外即将上线一款比可灵更好的AI视频模型。
目前,该模型已经官宣,是Luma推出AI视频生成模型Dream Machine。(接下来我们将时间进行实测,敬请关注。)
AI视频方面,快手入局并不算早。
抖音的AI视频产品“即梦”已于2个月前正式推出。
两家公司同处短视频赛道,旗下AI视频产品如何与..内容生态有效联动,将成为行业未来长期关注的焦点。
AI视频生成技术的发展和应用也面临多重挑战。
技术层面上,提升视频生成质量和效率、确保内容连贯性和一致性是亟待解决的关键问题。
同时,高算力需求和昂贵的推理成本也是限制其商业化的主要障碍。
在这样的背景下,AI视频模型的落地应用已经不仅仅是技术层面的较量。无论是大厂还是初创公司,都是对其内容生态构建、商业模式创新和成本控制能力的全方位考验。