|
|
2025 年最具影响力的 10 篇 AI Infra / MLSys论文(工程视角) 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |
|
|
Verl+Sglang+Megatron 训练: 4x4090 速通 Qwen3-8B GRPO,... 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |
|
|
大模型中的 MoE、V-MoE 以及 DeepSeekMoE 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |
|
|
美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |
|
|
浅谈训推误差与 LLM RL 稳定性 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |
|
|
关于多模态大模型Token压缩技术进展,看这一篇就够了 吃果冻不吐果冻皮 · 公众号 · · 3 月前 · |