Kimi-K2 炼成记：几个月束手无策，一个灵光乍现的 QK-Clip

知乎日报 · 公众号 · 问答 · 2025-07-15 21:36

主要观点总结

本文介绍了Kimi K2模型的开源发布，包括其架构的优化和模型训练过程中的关键问题解决。文章详细描述了模型在架构上的继承和优化，以及如何解决超大规模训练中的MaxLogit爆炸问题。

Kimi K2模型今日正式开源，是基于DeepSeek-V3的成熟设计进行优化和延续的。团队设计的「MuonClip」技术解决了超大规模训练中MaxLogit爆炸问题，使得模型成功训练。

在架构上，Kimi K2大体上复用了DeepSeek-V3的架构，个别地方进行了改动。包括放弃了double heads，降低了Infra的压力，MoE部分的num_experts从256升到了384，以达到特定的数字目标。

在超大规模训练中，团队遇到了MaxLogit爆炸的问题。通过提出QK-Clip方法，结合Muon与QK-Clip的组合技术MuonClip，成功解决了这一问题。此方法的出现对团队产生了很大的冲击，并提供了在面对类似难题时的思考方向。

在优化方面，团队面临着将Muon扩展到更大规模模型的挑战。通过验证Muon在大规模上的实践，确认了Weight Decay的必要性和Match Adam Update RMS的有效性。此外，团队还分享了其他在模型优化方面的探索和思考。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

环保之家 · 污水用于农田灌溉属于直接排放还是间接排放？

21 小时前

知乎日报 · AI 周报丨参加 WAIC 是种怎样的体验？梁文锋参与 DeepSeek 论文获 ACL 最佳，哪些信息值得关注？

2 天前

知乎日报 · 脑洞丨下辈子想当只鸟，大家有什么经验可以分享吗？

2 天前

快消品网 · 【饮品】奈雪的茶5.25亿元控股乐乐茶，后者预计2024门店数将达1000家

1 年前

奇客Solidot · SpaceX 执行首次商业太空行走任务

10 月前

DataFunSummit · Alluxio AI在内容推荐算法中的应用

10 月前

财金新天地 · 国家放水的钱，正在被套走！

9 月前

信达证券研究 · 信达晨会（2024/11/14）策略：降低弹性，增加价值 | 宏观：M2增速出现双重背离的原因

8 月前