封面图

核心要点

  • 模型:HappyHorse 1.0,15B 参数开源视频生成模型
  • 发布:2026年4月27日,fal 云正式上线 API
  • 归属:阿里巴巴淘天集团 Future Life Lab(Token Hub 事业部)
  • Leader:张笛,前快手副总裁、Kling AI 技术负责人,2025年底回归阿里
  • 排名:Artificial Analysis Video Arena 盲测第一(文本生视频 1333 Elo,图生视频 1392 Elo)
  • 特点:文/图/参考视频/视频编辑四种模式,7语种唇音同步,音画联合生成

一、发布即登顶

4月27日,fal 云宣布面向开发者和企业开放 HappyHorse 1.0 的 API 访问。这是阿里淘天集团 Future Life Lab(隶属 Token Hub 事业部)发布的开源视频生成模型,上榜第一天即登顶 Artificial Analysis 视频Arena 盲测排行榜。

Artificial Analysis 的评测方式完全盲测:用户同时观看两个未知来源的视频片段并选择更好者,系统根据大量投票计算 Elo 分数。HappyHorse 1.0 在文本生视频(Text-to-Video)拿到 1333 Elo,图生视频(Image-to-Video)拿到 1392 Elo,双项均压过 Seedance 2.0、SkyReels V4、PixVerse V6 和 Kling 3.0 等所有竞品。

模型 T2V Elo I2V Elo
HappyHorse 1.0 1333 1392
Seedance 2.0 1273
SkyReels V4 1245
PixVerse V6 1241
Kling 3.0 1241

二、技术架构

HappyHorse 1.0 的核心是一套40层统一自注意力 Transformer,在业内首次实现视频和音频的同 Pass 联合生成

  • 统一多模态架构:文本、视频画面、音频 token 在单一序列中处理,无需跨注意力模块,也无需单独的音频后处理流程
  • DMD-2 蒸馏:将去噪步数从 50+ 压缩到仅 8 步,无需 Classifier-Free Guidance,配合自研 MagiCompiler 推理加速 runtime
  • 生成速度:单卡 NVIDIA H100 上,1080p 视频约 38 秒生成(FP8 量化后可单卡部署)
  • 分辨率:最高 1080p 输出,支持 16:9、9:16、4:3、3:4、21:9、1:1 等多种比例

三、核心亮点:音画一体 + 7语种唇音同步

传统视频模型只能生成静音画面,音频需要单独配音。HappyHorse 1.0 在业内首次做到:

在同一模型 forward pass 中,同步输出画面、对话、环境音、Foley 音效,且天然唇音同步。

支持 7 种语言:英语、普通话、粤语、日语、韩语、德语、法语,Word Error Rate(WER)极低,适用于数字人、跨境电商、教育内容等场景。

配合镜头语言指令(slow dolly push-in、overhead crane shot、breeze vs strong wind 等)也能较好还原,是目前对导演级提示词理解最精准的开源视频模型。


四、API 现状:已上线,权重待开源

目前 HappyHorse 1.0 已在 fal 云正式提供 API,分为 4 个端点:

端点 说明
text-to-video 文本生视频
image-to-video 图片生视频
reference-to-video 参考图+文本生视频
video-edit 视频编辑

支持 720p / 1080p 输出,定价分为三档:

套餐 额度 价格
Basic 540 credits/月(≈54个视频) $11.90/月
Pro 2040 credits/月(≈204个视频) $39.90/月
Enterprise 6000 credits/月 + 专属客户经理 $99.99/月

所有套餐均含完整商业版权。

GitHub 和 HuggingFace 组织页面已建立,但模型权重尚未公开下载(官方说法是”权重还没 drop”)。官方 demo 和 fal API 可以体验完整能力。


五、团队背景

主导人是 张笛,AI 行业 15 年老兵,曾任快手副总裁、Kling AI 技术负责人,2025 年底回归阿里巴巴,现任淘天 Token Hub Future Life Lab 负责人。

这也是为什么 HappyHorse 的技术路径和 Kuaishou/Kling 一脉相承——联合音视频生成、长镜头一致性、多语言唇音同步都是 Kling 系列的招牌能力,张笛将这些技术积累带到了阿里。


六、意义

视频生成领域正在进入”音画一体”的新阶段。HappyHorse 1.0 的核心价值不只是生成视频,而是在同一模型中解决视频+音频+唇音三个问题,极大简化了 AI 视频的生产管线。

对于中国 AI 行业来说,这也是继 Kimi、GLM、通义千问之后,阿里在大模型领域的又一次世界级亮相——而且是开源(权重待发),不是封闭 API。

下一步关注:权重何时公开下载,以及国内是否有平台同步上线 API。


来源:fal 官方公告 / PR Newswire / happyhorsemodel.ai / Artificial Analysis