阿里 HappyHorse 1.0 来了:15B 参数开源视频模型登顶权威榜单
核心要点
- 模型:HappyHorse 1.0,15B 参数开源视频生成模型
- 发布:2026年4月27日,fal 云正式上线 API
- 归属:阿里巴巴淘天集团 Future Life Lab(Token Hub 事业部)
- Leader:张笛,前快手副总裁、Kling AI 技术负责人,2025年底回归阿里
- 排名:Artificial Analysis Video Arena 盲测第一(文本生视频 1333 Elo,图生视频 1392 Elo)
- 特点:文/图/参考视频/视频编辑四种模式,7语种唇音同步,音画联合生成
一、发布即登顶
4月27日,fal 云宣布面向开发者和企业开放 HappyHorse 1.0 的 API 访问。这是阿里淘天集团 Future Life Lab(隶属 Token Hub 事业部)发布的开源视频生成模型,上榜第一天即登顶 Artificial Analysis 视频Arena 盲测排行榜。
Artificial Analysis 的评测方式完全盲测:用户同时观看两个未知来源的视频片段并选择更好者,系统根据大量投票计算 Elo 分数。HappyHorse 1.0 在文本生视频(Text-to-Video)拿到 1333 Elo,图生视频(Image-to-Video)拿到 1392 Elo,双项均压过 Seedance 2.0、SkyReels V4、PixVerse V6 和 Kling 3.0 等所有竞品。
| 模型 | T2V Elo | I2V Elo |
|---|---|---|
| HappyHorse 1.0 | 1333 | 1392 |
| Seedance 2.0 | 1273 | — |
| SkyReels V4 | 1245 | — |
| PixVerse V6 | 1241 | — |
| Kling 3.0 | 1241 | — |
二、技术架构
HappyHorse 1.0 的核心是一套40层统一自注意力 Transformer,在业内首次实现视频和音频的同 Pass 联合生成:
- 统一多模态架构:文本、视频画面、音频 token 在单一序列中处理,无需跨注意力模块,也无需单独的音频后处理流程
- DMD-2 蒸馏:将去噪步数从 50+ 压缩到仅 8 步,无需 Classifier-Free Guidance,配合自研 MagiCompiler 推理加速 runtime
- 生成速度:单卡 NVIDIA H100 上,1080p 视频约 38 秒生成(FP8 量化后可单卡部署)
- 分辨率:最高 1080p 输出,支持 16:9、9:16、4:3、3:4、21:9、1:1 等多种比例
三、核心亮点:音画一体 + 7语种唇音同步
传统视频模型只能生成静音画面,音频需要单独配音。HappyHorse 1.0 在业内首次做到:
在同一模型 forward pass 中,同步输出画面、对话、环境音、Foley 音效,且天然唇音同步。
支持 7 种语言:英语、普通话、粤语、日语、韩语、德语、法语,Word Error Rate(WER)极低,适用于数字人、跨境电商、教育内容等场景。
配合镜头语言指令(slow dolly push-in、overhead crane shot、breeze vs strong wind 等)也能较好还原,是目前对导演级提示词理解最精准的开源视频模型。
四、API 现状:已上线,权重待开源
目前 HappyHorse 1.0 已在 fal 云正式提供 API,分为 4 个端点:
| 端点 | 说明 |
|---|---|
text-to-video |
文本生视频 |
image-to-video |
图片生视频 |
reference-to-video |
参考图+文本生视频 |
video-edit |
视频编辑 |
支持 720p / 1080p 输出,定价分为三档:
| 套餐 | 额度 | 价格 |
|---|---|---|
| Basic | 540 credits/月(≈54个视频) | $11.90/月 |
| Pro | 2040 credits/月(≈204个视频) | $39.90/月 |
| Enterprise | 6000 credits/月 + 专属客户经理 | $99.99/月 |
所有套餐均含完整商业版权。
GitHub 和 HuggingFace 组织页面已建立,但模型权重尚未公开下载(官方说法是”权重还没 drop”)。官方 demo 和 fal API 可以体验完整能力。
五、团队背景
主导人是 张笛,AI 行业 15 年老兵,曾任快手副总裁、Kling AI 技术负责人,2025 年底回归阿里巴巴,现任淘天 Token Hub Future Life Lab 负责人。
这也是为什么 HappyHorse 的技术路径和 Kuaishou/Kling 一脉相承——联合音视频生成、长镜头一致性、多语言唇音同步都是 Kling 系列的招牌能力,张笛将这些技术积累带到了阿里。
六、意义
视频生成领域正在进入”音画一体”的新阶段。HappyHorse 1.0 的核心价值不只是生成视频,而是在同一模型中解决视频+音频+唇音三个问题,极大简化了 AI 视频的生产管线。
对于中国 AI 行业来说,这也是继 Kimi、GLM、通义千问之后,阿里在大模型领域的又一次世界级亮相——而且是开源(权重待发),不是封闭 API。
下一步关注:权重何时公开下载,以及国内是否有平台同步上线 API。
来源:fal 官方公告 / PR Newswire / happyhorsemodel.ai / Artificial Analysis







