2月24日,DeepSeek启动“开源周”,发布了首个代码库FlashMLA。这个代码库是针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计,现已投入生产使用。在H800 GPU上,FlashMLA能实现3000 GB/s的内存带宽和580 TFLOPS的计算性能。
简单来说,FlashMLA能让大语言模型在GPU上运行更快、更高效,特别适用于高性能AI任务。它加速了大语言模型的解码过程,提高了响应速度和吞吐量,对实时生成任务如聊天机器人和文本生成尤为重要。MLA是一种改进的注意力机制,通过多个头并行计算,让模型更好地捕捉长距离依赖关系和复杂语义结构。
此前有分析称,MLA通过对KV缓存的有损压缩提高存储效率,首次在DeepSeek-V2中引入,目前是开源模型中减小KV缓存的最佳方法。DeepSeek表示,这一代码像给AI推理引擎装上了“涡轮增压器”,不仅提升了处理速度,还降低了技术门槛,打破了算力垄断,推动AI普及。
具体来说,FlashMLA通过动态调度和内存优化,充分利用Hopper GPU的算力,减少了资源浪费。这意味着企业可以用更少的服务器完成同样任务,直接降低成本。此外,FlashMLA支持动态处理变长输入,让AI应用响应更快、用户体验更好,加速商业化落地。以前高效解码内核多由科技巨头闭源垄断,现在开发者可以免费获得工业级优化方案,促进更多创新应用的诞生。
有网友在DeepSeek的帖子下留言称:“鲸鱼正在掀起波浪!”还有人希望DeepSeek开源网页搜索相关代码,并称赞其为真正的开放人工智能。上周2月21日,DeepSeek宣布将陆续开源五个代码库,以完全透明的方式分享进展。这些代码已在生产环境中经过实战检验。DeepSeek自称为探索AGI的小公司,每分享一行代码都会成为加速AI行业发展的集体动力。没有高不可攀的象牙塔,只有纯粹的车库文化和社区驱动的创新。