智东西 4月27日报道,今天,阿里ATH创新事业部的最新视频生成与编辑模型 HappyHorse 1.0(官方译名:快乐小马)开启灰度测试。大众用户可在 千问App 中体验。

在盲测平台Arena.ai上,HappyHorse 1.仅次于前段时间爆火的 字节 Seedance 2.0。为验证HappyHorse 1.0的真实效果,我们进行了多维度的实测。

只需输入简单的文字描述,用户就可用HappyHorse 1.0生成一段3s-15s长度的视频,视频中可以实现多镜头切换、连贯剧情等要素。

HappyHorse 1.0分辨率最高支持 1080P ,最多可同时生成4个视频,生成720P和1080P视频的刊例价分别为 0.9元/s及1.6元/s ,Pro套餐包月价格叠加限时折扣后为 0.44元/s和0.78元/s 。

同时,HappyHorse 1.0也出现在阿里旗下多款产品中,如 阿里 悟空 、MuleRun和JVS Claw 等Agent平台。千问App预告,近期将上线“测一测”视频玩法,测出用户在短剧宇宙的本名角色后,通过HappyHorse 1.0生成用户本人“出演”的角色短剧片段。

在这次实测中,我们发现了HappyHorse 1.0在指令遵循、生成速度方面的明显优势,也看到了它在画面物理准确性、音画同步等方面仍有提升空间。以下是我们提炼出的核心体验要点:

01.能理解800词超长提示词,物理真实性还有提升空间

案例1:复杂动作与音画同步

街头音乐表演,鼓手敲击节奏、吉他手弹奏旋律,观众围成半圈随节奏拍手并轻微摆动身体,氛围热烈, 拉美 风格,傍晚暖色灯光,镜头缓慢推进。

HappyHorse 1.0的生成速度是一大亮点,下方视频生成的耗时大概在2分钟左右。从生成结果上来看,HappyHorse 1.0生成的人像没有出现肢体异常、扭曲等问题,镜头运动、画面灯光等元素符合提示词要求。

音画同步效果是这段视频中的缺憾。吉他手的演奏和视频里的音乐节奏不同步,尤其在某些和弦的切换和重拍落点上,画面中的手部动作与音频中的音符出现错位,破坏了演奏的真实感与沉浸感。

海边悬崖上,海浪猛烈拍打岩石,水花飞溅,天空乌云密布,风吹动人物衣服和头发,电影级真实感,慢动作。

最终,HappyHorse 1.0的生成结果很好地还原了波涛汹涌的效果,海浪与岩石的撞击、海面上的泡沫都较为符合物理规律。

切换到人物后,主角头发的飘动方向和衣服的飘动方向基本一致。美中不足的是,近景画面中水滴滑落的速度不太符合物理规律,显得略微慢了半拍。

在这一案例中,我们考察了HappyHorse 1.0对复杂提示词的理解能力。这段提示词长达800词,描述的是一个类似知名游戏《 GTA 》的实机演示画面。

我们的提示词对画面中几乎所有元素都进行了定义,包括人物、天气、环境、建筑等等,HappyHorse 1.0对这些元素都做了准确呈现。

不过,开头的第一个画面出现了物理bug,车门在没有受到外力的情况下自己关闭了。最后一个镜头中,主角出现了变化,这显示出HappyHorse在这一案例中的一致性方面还有提升空间。

案例四: 镜头语言 与叙事感

夜晚城市街道,一名侦探在雨中行走, 霓虹灯 反射在湿漉漉的地面上,镜头从远景缓慢拉近到特写,电影黑色风格。

上方提示词对运镜方式、画面风格都做了细致的规定,这对HappyHorse 1.0的指令遵循能力提出要求。

最终,HappyHorse 1.0生成了从远景缓慢拉近到特写的镜头要求,电影风格无误,霓虹灯的光线和反射都较为自然,但画面中的中文文字渲染有明显错误。

在这一案例中,我们还采用了1080P的分辨率和最长的15s时长,可以看到,放大后的画面细节依然较为清晰。

从这几个案例来看,在提示词要求较为详细时,HappyHorse 1.0可以较好地理解并执行复杂的画面构图、镜头运动和风格氛围要求,生成的人物形体与基础物理交互也相对稳定;但在高精度音画同步、微观物理细节以及画面中的文字渲染方面仍有提升空间。

02.最多支持9图参考,实测让奥尔特曼和 马斯克 “对簿公堂”

除了文生视频之外,HappyHorse 1.这些场景对一致性、稳定性提出了较高要求。不过,在今天的实际测试过程中,

我们首先尝试了图生视频功能中的首帧模式,所上传的图片是 OpenAI 联合创始人兼CEO 萨姆·奥尔特曼 和 Anthropic 联合创始人兼CEO 达里奥·阿莫迪 前段时间的合影。

不过,可能是因为画面中涉及多位真实人物,模型拒绝了这一生成请求。

之后我们上传了奥尔特曼的单人照,要求模型生成他喝咖啡的画面。这次尝试最后成功了,画面中人物与真人照片的相似度应该能达到8成左右,并且随着光线和背景的变化,人物的样貌没有出现改变。

多图参考中,我们上传了马斯克与奥尔特曼的图像,要求HappyHorse 1.0提前想象一下这两位人物对簿公堂、激烈争吵的画面。

这次HappyHorse 1.0也没有拒绝我们的生成请求,它给出的首版生成结果中,并没能体现出二人争吵的效果,主要是“马斯克”在单方面输出。此外,模型似乎不理解这两位人物的母语都是 英语 ,画面中“马斯克”操着一口流利的中文。

再进一步细化要求后,HappyHorse 1.0能够生成二人用英语争论的画面,其中人物的表情丰富,但是与参考图相比出现了较为明显的偏差。

除了上传多个人物之外,多图参考也允许用户对视频模型生成画面的背景、具体元素等提供素材。我们便上传了Sora核心人物Bill Peebles、OpenAI办公室、纸箱等元素,要求HappyHorse 1.0生成一个离职的画面。

在这一案例中,HappyHorse 1.0做得较高的方面是它准确生成了我们上传的所有参考元素,人物、环境等都基本一致。

然而画面中出现了不少物理bug,比如纸箱自动合上,门自动打开等等。

03.1080P、生成速度成HappyHorse亮点

在HappyHorse 1.0开始测试之际,智东西等部分媒体与多位参与HappyHorse 1.0测试的业内人士与探讨了这一模型目前的表现,及其在行业中的竞争站位。

出海一站式AI 电商 营销平台麦斯国际的技术合伙人李明认为, 3s-15s的生成长度、较快的生成速度、支持1080P 是HappyHorse 1.0的亮点功能。同时,在提示词较为明确的情况下,模型的产出效果“还可以”。

然而,在实践中,HappyHorse 1.0也展现出一些问题,比如生成视频结果的一致性、生成语音内容的机械感等等。 李明认为,HappyHorse 1.0与字节Seedance 2.0、OpenAI Sora 2等模型相比,“还有一些再提升的空间”。

我们向李明提及实测过程中遇到的音画同步、文字渲染等问题。李明称, 字幕等文字内容的渲染其实是当前AI视频生成模型的通病 ,目前业内很少靠大模型直接生成,而是会借助后期工具进行补充,这种模式也给调整留有余地。

音画同步方面,李明观察到通过更好的提示词工程,可以提升HappyHorse 1.0、Seedance 2.0等模型的音画同步效果,但这些模型目前在音画同步维度多少还存在一些问题。

李明判断,对企业而言,当前 视频生成模型的生成质量仍是一个普遍存在的痛点 ,部分创作团队的“抽卡率”甚至高达50%-60%。生成的时效性也还有提升空间。

相比之下,价格反而是用户更容易接受的维度。如果能做到又快又好,用户对价格的接受度自然会随之提高。

参与内测的AI视频创作平台Flova相关团队认为,HappyHorse 1.0模型在真实感与叙事能力上表现不错, 尤其适合叙事性内容、纪录片风格的题材。

同时,HappyHorse 1.0的焦段运用接近实拍,减轻了视频的“AI感”,让观感更加真实,其镜头运动也比较自然。

04.结语:一匹有潜力的“快乐小马”

从我们的体验感受来看,HappyHorse 1.0可以是一款不错的的视频生成模型,其较强的指令遵循能力为专业创作者提供了更多的精细化控制的空间,一定程度上降低了反复抽卡、试错带来的资源浪费。

然而,HappyHorse 1.0的画面还有不少可提升的空间,比如画面的“油腻感”、物理准确性等等。随着进一步迭代,这一模型有望在真实生产场景中发挥更大作用。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。