|
|
2025 年最具影响力的 10 篇 AI Infra / MLSys论文(工程视角) 青稞AI · 公众号 · AI · 3 月前 · |
|
|
ICLR 2026 Workshop 征稿倒计时10天:迈向 Lifelong Agent 终身智能... 青稞AI · 公众号 · AI · 3 月前 · |
|
|
非对称的保护:深入解析 PPO/GRPO 中 Clip 机制的梯度逻辑 青稞AI · 公众号 · AI · 3 月前 · |
|
|
Agent 如何“在经验中成长”?深度探讨自进化的关键问题与技术路径 青稞AI · 公众号 · AI · 3 月前 · |
|
|
大模型中的 MoE、V-MoE 以及 DeepSeekMoE 青稞AI · 公众号 · AI · 3 月前 · |
|
|
替代FSDP集体通信!ODC参数服务器可提速36% 青稞AI · 公众号 · AI · 3 月前 · |
|
|
SFT-RL 融合的“大一统”视角:从梯度范式重构到 RLLaVA 工程实践 青稞AI · 公众号 · AI · 3 月前 · |
|
|
浅谈训推误差与 LLM RL 稳定性 青稞AI · 公众号 · AI · 3 月前 · |
|
|
近期 AgentRL 典型论文解读 青稞AI · 公众号 · AI · 3 月前 · |
|
|
周二晚8点!一起聊聊JustRL,只用最基础的 RL 配方也能达到不错的性能! 青稞AI · 公众号 · AI · 3 月前 · |
|
|
通用 Agent 优化的关键: Scaling 和 Wild 青稞AI · 公众号 · AI · 3 月前 · |
|
|
两万字长文!Agentic RL 全流程技术分析与总结 青稞AI · 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
聊聊 On-Policy Distillation 与那该死的 Reverse KL 青稞AI · 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |