随着AI生成视频越来越受欢迎,如何准确传达用户的想法成为一大难题。用户发现仅靠文字难以表达需求。4月15日,快手旗下可灵AI发布了可灵2.0视频生成模型和可图2.0图像生成模型。快手高级副总裁盖坤表示,尽管AI在创意表达上有巨大潜力,但当前技术还无法完全满足用户需求,特别是在内容稳定性和精确传达复杂创意方面仍面临挑战。
此次2.0版本新增了多模态视频编辑功能,通过Multi-modal Visual Language(MVL)让用户结合图像、视频等多种信息,高效传达创意。用户可以直接用图像等方式输入想法,生成符合需求的视频。MVL由TXT(语义骨架)和MMW(多模态描述子)组成,能从基础方向和精细控制两方面精准实现创意表达。MMW不仅限于图片和视频,还能引入声音、运动轨迹等信息,丰富表达方式。数据显示,自去年6月发布以来,可灵AI已迭代超过20次,月活用户增长25倍,全球用户突破2200万。据内部评测,可灵和可图两款模型在业内稳居第一。目前,图生视频占可灵AI创作量的85%,图片质量对视频效果影响显著。可图2.0也升级了文生图能力,支持多种风格化效果,并上线了局部重绘和扩图等功能。此外,可灵AI还面向B端提供API接入服务,与小米、亚马逊云科技等数千家企业合作。截至2025年2月,可灵AI累计营收超过1亿元。