金磊 一水 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,拍个手咱就说这个国产Sora啊,个月个国就在七月这一个月时间里,蹦出南昌市某某文化传媒维修站那“增速”简直就是体阵霸屏模式——
可灵、PixVerse V2、拍个手清影、个月个国Vidu……
面对眼前一水儿的蹦出AI视频生成软件,相信大家也和我一样:
感慨过后,体阵一个想法立即浮上心头:
能不能把它们拉到一起,拍个手搞个横评,个月个国看看谁家的蹦出国产Sora更胜一筹?
说干就干,我们先来简单介绍一下此次参赛的体阵几位选手:
我们这次的battle将围绕图生视频和文生视频两个大赛道展开,其中还会包含风景、动物、人物甚至梗图等多项生成能力测试。
对于各个选手来说,不仅要考验的是它们最终生成的质量,更关键的是画面一致性、是否符合给定prompt等更为细节的内容。
接下来,量子位一手实测这就奉上。
这第一关,咱就先来试试诸位选手的“图生视频”能力。
老规矩,开局只给一张图和一段prompt,不进行任何其他操作,以保证原汁原味儿~
经典梗图
提到梗,那就不得不搬出《甄嬛传》了~
我们先给每位选手“喂”下面这张图:
然后简单的给一句prompt:
甄嬛慢慢戴上了墨镜。
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
首先从戴墨镜这个细节来看,只有可灵算是把墨镜这个实体完完整整地给生成出来了。
而清影和Vidu生成的墨镜还是透明的,并非我们印象中的那种墨镜。
至于PixVerse V2……则直接生成了个寂寞。
其次,从自然度来看,可灵的甄嬛低头戴墨镜也是比较符合生活中的逻辑,属于最自然的那个。
而在清影和Vidu里,甄嬛佩戴墨镜的位置略显高了一些;以及,清影生成的手指出现了6个。
因此在梗图的较量中,可灵明显胜出!
脑洞大开的科幻大片
接下来,我们来测试一下AI们的想象力如何。
操作同样是先“喂”一张末日场景图:
这次的prompt涉及的“剧情”会稍微复杂一点,例如:
最后一艘人类飞船逃离,透过舷窗,一只彩虹色的气球慢镜头飘过。
我们来看下四位选手的生成效果:
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
这次battle的结果就比较明显了。
最符合prompt的便是PixVerse V2,不仅模式爆炸场景还在延续,也有一个彩虹气球飘过。
其次是可灵,但气球出现的较为突然和诡异,并且颜色只是单一的紫色。
清影方面则是莫名其妙的出现了一个彩虹团,并没有生成气球的样子。
但最惨的还是Vidu,直接什么都没有,但隐约似乎是把远处爆炸的云朵里带了点彩虹的颜色。
此局,PixVerse V2,Win!
老照片动起来
最后一个图生视频的测试,我们玩儿复活老照片:
prompt是这样的:
小朋友边转过身来边拍手。
我们来看下效果:
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
嗯,集体阵亡。
不拍手的不拍手,拍手的手基本上全鬼畜。
但相比来看,Vidu的效果会稍微强一些,不仅完成了关键“拍手”动作(虽然有几帧还是出错了),还自带降雨效果,活脱脱一场“儿童雨中嬉戏”~
看来AI处理手还是非常困难的。
本轮,Vidu的表现相对出众一些!
至此,先来一个小总结:
在图生视频之后,我们进入下一个大赛道——文生视频。
同样的,在这个环节中我们还设置了多个细分项目,从多个不同维度来测试各个AI选手的实力。
Sora同款prompt
首先就是跟文生视频“鼻祖”Sora,用官网呈现的同款prompt来对比看下效果。
例如最为经典的“Sora女郎”:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
所有的效果均不如Sora那般逼真,但可以说是各有风格特色。
例如可灵和Vidu的人物在走路姿态上更自然一些;PixVerse V2的人物在面部的一致性上较好;而清影则是整体画面的色彩更为丰富。
一镜到底
接下来,为了测试AI选手们生成画面一致性的能力,我们来一段一镜到底的复杂prompt:
生成一段主题为《城市公园的早晨》视频。请使用一镜到底的拍摄技巧,从公园入口开始,缓慢推进镜头,捕捉清晨阳光下公园的景象。镜头应平稳移动,依次展现以下元素:
1、公园入口的标识牌,阳光透过树叶间隙,形成斑驳的光影。
2、晨跑的人群,他们脸上洋溢着活力和朝气。
3、儿童游乐区,孩子们在秋千和滑梯上玩耍,笑声充满整个场景。
4、最后,镜头回到公园的另一侧出口,结束视频。
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
从结果来看,所有选手在大场景的表现均不错,可以把公园、树木生成的栩栩如生。
But!
所有选手在人物上全部出现错误:畸变的、消失的、魔幻的……
大特写
在一致性之后,我们继续测试一下特写镜头,AI们是否能够hold住:
动画场景,展示一个粉色的毛绒绒的小怪物抱着一块很大的芝士在吃,3d风格,需要注重画面的细节,小怪物的神情充满喜悦,表现出顽皮天真的样子。温暖的颜色和氛围的灯光。
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
这一轮的测试,除了PixVerse V2出现的畸变之外,其它三位选手不论是一致性还是画面丰富度,均表现出众。
多主体
最后,我们试一下选手们能否在一个视频里一口气hold住多个主体,例如:
冬天,一家三口,爸爸,妈妈,还有女儿坐在沙发上,旁边有只猫咪趴着睡觉,火炉取暖,温馨画面。
视频地址:https://mp.weixin.qq.com/s/C7bDx9J_-7jcJwUoO0NTdw
在画风方面,只有可灵将“温馨”解读成了黑白风格,其它三位选手的画风均比较契合prompt。
Vidu还是唯一一个生成了中国家庭的那个。
但所有玩家都没能完整生成prompt中的4个主体,即三个人类和一只猫,都或多或少的出现了缺失的情况。
同样的,到这里我们再来一个小总结:
以上就是这次AI视频生成的全部评测内容了。
那么接下来的一个问题是:
除了上述效果之外,我们先再来看另一个维度的较量——生成速度:
我们针对图生视频和文生视频两个大赛道,分别对每个选手、每个案例统计了生成时间:
令人比较意外的,新秀Vidu不论是在哪个赛道,都只需要1分钟不到的时间,是唯一一个进到“秒生成俱乐部”的玩家。
剩下的三位,整体来看,清影的生成速度高于其他二位。而且需要说明的一点是,清影的视频时长为6秒,其他两位是5秒。
至于可灵和PixVerse V2,整体而言PixVerse V2更快。
小结一下,整体生成速度排列如下:
Vidu > 清影 > PixVerse V2 > 可灵
不过在功能方面,还有一些细节内容值得说道说道。
例如PixVerse V2是支持免费把视频长度扩展到8s;可灵是可以扩展到10s,但不支持高性能模式;清影和Vidu则是固定时长。
在生成数量限制方面,清影是相当的霸气,完全不限次!
而其它三位玩家均采用积分制:
最后,从视频的生成效果、生成速度和功能等全方面来看,目前并不能判定哪家国产Sora属于最强,只能说是各有千秋。
若是小伙伴们想要更深入地去体验和评测,四位选手的体验地址放在下面了;测试完后欢迎回来留言讨论哦~
可灵体验地址:
https://klingai.kuaishou.com/text-to-video/new
PixVerse V2体验地址:
https://app.pixverse.ai/home
清影体验地址:
https://chatglm.cn/video
Vidu体验地址:
https://www.vidu.studio/