查看原文
其他

试了试MiniMax新出的Al视频模型,发现它生成人物的“演技”吊打内娱

阿虎 AI新榜
2024-09-24

作者 | 阿虎
编辑 | 张洁

最近刷屏AI圈的大事件,无外乎MiniMax推出了视频生成工具海螺AI。


科技博主们对它寄予厚望,纷纷感叹“忘了Sora,MiniMax的视频生成模型已经获得了巨大进步”“中国又出了一个强力竞争对手”“我见过手部动作最自然的模型”……



电影制作人们用它开始玩起了短片,赛博科幻风、暗黑恐怖风都没在怕的。


短片《A Place in Hell》

截至目前,海螺AI生成视频合集在X平台上获得了超1800万浏览量,不少国外网友用它对知名IP进行二创,《星球大战》的经典场面已经获得了约500万次的观看。


这款刷屏各个社交平台的视频生成工具——海螺AI,由大模型公司MiniMax自研发布,可以一次性生成长度为6秒的短视频。


8月31日,MiniMax发布了一段以“魔法硬币”为主题的宣传视频,视频画面、音效完全由MiniMax旗下的视频、语音大模型完成。


目前,海螺AI的视频创作功能已经在网页端上线,用户可在首页点击“创作视频”,即可限时免费生成视频。


“AI新榜”也进行了一番实测,涵盖人物、文字、风景等多种镜头表现类型,我们意外发现在人物情绪表达、镜头运动等视频类型上,MiniMax展现出了一定优势。当然,我们也在测试过程中遇到了一些海螺AI的问题和短板。


本篇将结合不同视频生成工具的呈现效果,包括文生视频公认的王者Runway以及媲美Sora的国内AI可灵,看看MiniMax究竟能不能成为视频生成赛道的最强黑马?



实测MiniMax海螺AI,生成视频有了“人味”?

根据不少创作者的测试反馈,海螺AI在人物表情生成上表现相当出色。

“情绪表达”对于AI来说是一个难题,Runway旗下的模型达到情绪转换,往往需要借助运动笔刷功能,进行细节调试,更不用说直接能借助提示词转换情感表达了。

图片来源:科技博主“歸藏”发布的视频截图

海螺AI真能让人物实现“光速变脸”?我们来上手测试一下。

人物类

提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。

海螺:


可灵:


Runway:


在没有风格提示词的情况下,无论是可灵、海螺还是Runway,都会生成写实风格的视频。

不同的是,短短6秒内,海螺展现了一个中年男人从悲伤到快乐到尴尬的变脸故事。可灵没有遵循文字提示中的具体动作转变——“戴上了假发和眼镜”,而是展现了中年男人已经戴上的状态。

Runway这轮生成的视频中出现了肉眼可见的技术瑕疵,既没有假发的元素,还直接让主角自己戴上了太阳镜。

我们继续在提示词上加些难度,比如多人场景,并且要求人物的心情不同。

提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。旁边有位女士正看着他笑。

海螺:


可灵:


Runway:


令人惊喜的是,海螺巧妙地将另外一个人物虚化处理,区别前后景,并且两个人的表情也截然不同。尽管在佩戴假发和太阳镜动作处理上有些不自然,但总的来说控制住了多人物的场景。

根据相同的提示词,可灵生成的画面有所欠缺,对于“女士”的表现只有隐约的长发,人物面部表情、动态效果处理都有所欠缺。

再看Runway,它无法生成两个人物截然不同的面部表情,要笑一起笑,要戴眼镜一起戴,颇有“荣辱与共”的生成使命感。

另外,在人物镜头生成过程中,我们发现不同于Runway生成名人形象会得到违反内容政策的提示,MiniMax在这一方面限制较少,比如可以生成带点“老铁味”的马斯克。


文字类

测试下来,海螺在英文文字输出方面也很成熟,并且还能一次性生成连续的镜头,改变画面的明亮程度。


提示词:镜头缓缓推近,一面昏暗的墙上有一个灯箱闪烁了几次,然后亮起文字“AIGCPLAYER”,发出彩色的灯光,赛博朋克风格

Runway生成文字向来可圈可点,在动态效果表现上优于海螺,但运镜转换上仍有提升空间。


可灵目前还无法做到文字类镜头生成,对于“昏暗”的理解到位,画面氛围感十足,但英文文字完全错误。


风景写实类

提示词:一只毛绒质感的小黄鸭,特写镜头展示了小黄鸭柔软的黄色羽毛和圆圆的眼睛。小黄鸭头顶大葱,在上海的黄浦江上游,翅膀灵动地拨动着水面。
A plush texture of a small yellow duck, close-up shots show its soft yellow feathers and round eyes. Little yellow duck with scallions on its head, fluttering its wings on the water surface in the upper reaches of the Huangpu River in Shanghai.


根据“AI新榜”此前多轮测试,大多数主流模型在风景写实类镜头上表现都比较稳定。这次挑战的海螺、可灵和Runway在效果上也各有千秋。

海螺:


可灵:


Runway:


论真实性,没有什么能够比得过可灵。但可灵在地标建筑上稍有欠缺,背景并没有体现上海、黄浦江等关键元素。

海螺对于光影和背景处理更胜一筹,但生成的小黄鸭更有塑料感,没有很好表现出提示词中的“毛绒感”,更像一只玩具鸭。

Runway生成的画面直接采用特写镜头,巧妙地解决了背景处理的问题。

镜头运动

镜头运动其实也涵盖了各个视频模型对于长文本的理解能力,我们投喂的提示词如下:

A dramatic close shot of a stormy ocean with towering waves crashing against a small ship. A monstrous creature is emerging from the depths of the sea, its massive form breaking through the water, sending sprays of ocean mist into the air.
The ship, dwarfed by the creature, tilts precariously on the turbulent waves. Onboard, a lone man stands at the bow, gripping the railing tightly, staring in awe and terror at the monstrous figure rising before him. The scene is lit with intense, cinematic.
广角镜头,一张暴风雨般的大海,巨浪拍打着一艘小船的戏剧性照片。一个巨大的生物正从深海中出现,它巨大的体型冲破水面,向空中喷射出海洋薄雾。那艘船在汹涌的波涛中摇摇欲坠,与那生物相比显得矮小。船上,一个孤独的人站在船头,紧紧抓住栏杆,敬畏而恐怖地盯着面前升起的怪物。现场充满了强烈的电影感。

整体生成效果上,只有海螺达到了“镜头运动”的效果,并且没有出现重影、崩坏等严重的画面瑕疵。MiniMax前端开发佳心也在即刻平台分享,加上更多镜头描述,比如“镜头跟随(主体)”,画面会更具电影感。


只不过,提示词要素过多,导致最终的人物仅是一闪而过,如果分段进行生成,能达到更好的画面效果。

可灵:


Runway:


总的来说,海螺AI对于提示词的理解能力在线,生成的视频内容连贯性和可控性上把握得当。在微表情变化、运镜表现上更细节、更具优势,甚至能够很好刻画出人物的情绪转换。

可以说,我们总希望的AI能有“人味儿”,MiniMax先浅浅往前跨了一小步。

大家可以再直观感受一下,海螺AI在“情绪表达”上的能力:


值得一提的是,我们在尝试过程中发现,不少使用英文提示词生成的画面,明显优于中文提示词生成的。比如,前文巨浪的画面使用中文的效果是:


还有同样是让婴儿开摩托车:

提示词:一个婴儿骑着摩托车下山,一对父母骑着摩托车跟在后面,下坡的电影动作场景,快节奏,高速动作。
A cinematic action scene of a baby driving of a mountain, downhill, on a motorcycle.Parents are following him, on a motorcycle. Fast paced, high speed action.


中文版:


英文版:


中文版完全没有办法理解“婴儿”这一词,但英文的“baby”就表现得很恰当。在中文提示词下,人物表情扭曲、画面崩坏的问题会更加明显,在真实感上会有所欠缺。

在测试过程中,除了中英文提示词效果不同外,我们也遇到了其他问题,剩了不少废片。比如,它默认生成的欧美面孔偏多,缺少国风元素。和其他工具一样,如果追求高质量的画面,海螺AI就避免不了“抽卡”的环节。

另外,海螺AI暂不支持并行生成多个视频,无法调整画面比例,这在一定程度上也限制了视频内容的再创作。

不过,MiniMax创始人闫俊杰在接受多家媒体采访时提前预告称,未来产品会迭代图生视频功能,增加视频可控制、可编辑等功能。未来几周内,MiniMax还会发布从速度和效果上都对标GPT-4o的大模型abab 7。


国产大模型加速赶超,MiniMax能否脱颖而出

短短几个月,文生视频的竞争已然走向白热化。

AI视频生成在画面流畅度、物理世界模拟、长文本理解等方面都有显著的提升,早已褪去切片式“动态PPT”的效果,转变成可使用的创作工具。

且不说海外的Runway、Luma、Pika,近半年内国内就出现了可灵、清影、Vidu等视频生成工具,一时让人抉择不出哪家效果最好。

此前,“AI新榜”对10家国内外热门的AI视频生成工具进行过实测盘点,感兴趣的玩家可移步阅读。(相关阅读:《可灵制作短片惊艳马斯克,所以最好用的AI视频工具究竟是谁?》

结合我们此前的实测和玩家反馈,几家AI视频产品各有特色。

就国内来看,可灵在国风元素、对物理世界理解上具有独特优势,所以生成画面更具备真实感;生数科技的Vidu生成耗时短;即梦是几家中综合性价比较高的一款工具。

国外,Runway Gen-3在长文本语义理解上跃升了新台阶;Luma Dream Machine在动幅和想象力上十分出色,因此网友大多用它来玩梗造梗。

MiniMax的海螺AI在人物细节和情绪表现上找到了自己的赛道。这一特点也让海螺AI吸引了海内外创作者对视频生成的又一轮创作热情。

比如,博主“Lepadphone”用19个哭泣相关的提示词,让海螺AI生成了一组视频。

来源:视频号用户“Lepadphone”

“Min Choi”的视频展现了多人物场景,该视频在X平台上获赞2.8万。

来源:Min Choi

在此前MiniMax伙伴日活动上,闫俊杰提到,MiniMax一直在解决视频生成的稳定性等难题,让模型的输入输出尽可能长,让AI更进一步像人。之前基于文本的底层基础设施,处理清洗数据、标注等等都不太适用视频,因为视频是千万token的输入和输出,天然具备复杂性。

碍于技术层面上的多重挑战,MiniMax入局AI视频,显得有些姗姗来迟。

最初,“海螺AI”其实是一款类ChatGPT的AI助手,早前被人熟知是因为它的声音克隆功能,超拟人的音效营造了和真人聊天的情境,吸引了不少网友和它互动聊天。



在语音大模型、文本对话上具有明显优势的Minimax,卷起了视频生成。海螺AI的网页端上,我们可以看到搭载了创作音乐、创作视频、对话搜索等新能力。

用户甚至可以一站式完成文本到有声音的视频。MiniMax背后的abab-music和abab-video模型,使得这一直出工作流成为可能。

闫俊杰在最新的分享中称,人类大部分的交流在多模态里。本质上纯文字信息占比少,更多的是通过图文、短视频等信息交流,甚至购物也都是图片为主。所以为了用户的覆盖度和使用度,能够输出动态内容是更核心、更重要的。

这可能也是今年AI视频应用爆发的原因之一,从大厂到初创公司,国内外众多企业纷纷加入到这场技术竞赛中,一时间视频生成赛道显得十分拥挤且激烈。

技术层面上,各家开始卷起了视频控制功能、确保内容连贯性和质量。近期,快手可灵面向超级创作者内测了1.5版本以及运动笔刷功能,旨在进一步提升视频画面的可控性。

AI视频模型的落地,已经不仅仅是技术上的较量。另一方面,在国内大模型To C产品免费为主的情况下,AI视频生成工具大多开启了付费订阅模式,快手可灵、字节即梦、智谱清影陆续上线了会员体系。

此前,AI视频创作者Abel Art曾估计,1分钟连贯的视频比例约为500个视频片段,用现有AI工具制作1分钟视频的成本大约在125美元(约890元人民币),相当于租借电影镜头一天。

这仅仅是个人创作者的算力和资金消耗,在这样的背景下,高算力需求和推理成本还能让MiniMax限时免费多久?

闫俊杰谈及大家关注的商业化问题,还是很谨慎。他提到:“最重要的东西还不是商业化,是提高AI产品在用户中的渗透率,比如说海螺打磨出新的功能,直到有用户粘性,是真正地让技术到达广泛可用的程度。”


「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看
 一起研究AI

继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存