|
LLM后训练理论新突破!复旦邱锡鹏团队发现SFT与DPO同为隐式奖励学习的不同表现形式 智猩猩GenAI · 公众号 · · 3 周前 · |
|
超越字节VeRL!华为开源强化学习框架AsyncFlow,突破任务分离式后训练瓶颈 智猩猩GenAI · 公众号 · · 3 周前 · |
|
斯隆奖得主苏煜团队最新研究:Mind2Web 2如何用Agent-as-a-Judge框架重新定义智... 智猩猩GenAI · 公众号 · · 4 周前 · |
|
ACL 2025收录!中科院联合浙大提出LLM微调新范式GAPO:面向多目标对齐的梯度自适应策略优化 智猩猩GenAI · 公众号 · · 4 周前 · |
|
华为联合西安交大等提出RAG+框架:以知识与案例双驱动,增强RAG推理能力! 智猩猩GenAI · 公众号 · · 1 月前 · |
|
重新评估LLM的代码生成能力!UIUC联合高通提出分级评测框架ENAMEL,ICLR 2025已收录 智猩猩GenAI · 公众号 · · 1 月前 · |
|
击败Gemini DeepResearch!牛津大学Agentic Reasoning框架让大模型推... 智猩猩GenAI · 公众号 · · 1 月前 · |
|
田渊栋团队最新成果!连续思维链存在叠加态,可同时编码多个路径提升大模型推理能力 智猩猩GenAI · 公众号 · · 1 月前 · |
|
LLM高效推理新范式!UCLA提出MTAD类推测解码框架,兼顾生成速度与推理质量 | ICLR 20... 智猩猩GenAI · 公众号 · · 1 月前 · |
|
超大规模MoE对AI基础设施带来的挑战和机遇 智猩猩GenAI · 公众号 · · 1 月前 · |