腾讯大模型团队致谢阿里云，AI开源再立功

2024-06-07 未知 Gushan

一张图就能生成一段舞蹈视频。近日，腾讯音乐娱乐Lyra实验室公开了全新的图生视频框架MusePose，补齐了其虚拟数字人模型家族的最后一环。根据腾讯公开的项目信息显示，该模型可生成人物、卡通、动漫等形象视频，视频时长大约在10秒左右。但有意思的是，细心的网友发现，在MusePose的报告中，腾讯特别致谢了阿里的AnimateAnyone和其他开源组件。

对比阿里的Animate Anyone和腾讯的MusePose后，两款模型生成的效果极其相似，展示的demo也几乎一致，不难看出，腾讯的这一框架确实有参考、借鉴阿里的技术路线。

AnimateAnyone是何方神圣?

这是阿里通义实验室自研的一款视频生成模型，同样是输入一张图，就能将静态图像转换成连贯、可控制的视频。不同的是，阿里公开AnimateAnyone论文和多个开源文件的时间也追溯到去年11月。这一模型在当时被国内外开发者广泛关注，仅仅数日GitHub上就斩获了超1万个Star，更是在推特、YouTube等海外社交媒体平台上迅速蹿红，相关视频播放量超1亿。

今年1月，AnimateAnyone技术正式在通义App上线，直接向全民开放，用户仅需上传一张照片，就能让一个毫无舞蹈经验的人立刻跳起“科目三”，多数用户体验过后给出评价称，“科幻得夸张”、“有点强”。彼时网络疯传的兵马俑或马斯克跳“科目三”、奶牛猫跳洗澡舞等视频，背后使用的技术便是来自AnimateAnyone。

在当下的AI大模型领域中，视频生成是最热门的研究方向之一，OpenAI、谷歌、Meta等公司都在积极布局。但如何保证人物形象一致、动作流畅可控、时序细节完美重现等难题，依旧颇令业内头疼。在这一背景下，AnimateAnyone投下了曙光，成为这一领域的标杆之作，尽管Animate Anyone项目已公开近10个月，但时至今日，其对开源社区的价值依然在延续。

通向“科技普惠”的开源之路

开源还是闭源?这一直是人工智能领域中争论不休的一个问题。

站在当前时点，AI大模型之战开始向“更大、更强、更多模态”演进，但随之而来的是大幅攀高的成本。而开源大模型就可以极大降低应用开发的门槛，用户只需下载完成预训练的模型并进行微调，便可以搭起高质量模型或应用。换句话说，在大模型时代，开源路线能帮助更多中小企业组建大规模大模型，这对行业整体技术推进、生态繁荣发展、实现“科技普惠”极为重要。

不过，从0研发一款参数规模大、性能顶尖的大模型需要巨大的算力和人力成本，开源意味着把这些成果免费共享给所有人，纵观全球，能坚持回馈开源社区的科技公司并不多。“国内这方面阿里云做得比较好，肯把比较最好的模型开源出来，”有业内人士表示，“这很难得。”

从全球市场来看，阿里云是国内早期开源自研大模型的科技企业，也是全球开源全尺寸、全模态大模型的云厂商。就在今天，阿里还发布通义千问Qwen2大模型，在Hugging Face和ModelScope上同步开源，其性能超越美国最强的开源模型Llama3-70B，也超过文心4.0、豆包pro、混元pro等一众闭源模型。据悉，阿里开源的Qwen系列模型的下载量已超1600万，目前全球已有1500款基于Qwen二次开发的模型。