|
|
从论文中积累复现 R1 的 insight 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
思考 RLHF 的本质以及主流算法思路 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
ICLR 2025 | LLaVA-MoD:MoE蒸馏训练轻量化多模态大模型 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
机器人抓取:从深度学习、强化学习到VLA与VLM 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
终于等到!一本终结“NLP学习焦虑”的权威指南来了! 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
好文推荐!从强化学习到DeepSeek R1 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
三问一图万字拆解DeepSeek-R1:训练之道、实力之源与市场之变 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
Kimi-VL:视觉语言模型(VLM)的新探索 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
PPO 算法的37个实现细节 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |
|
|
R1 的一些认知:4 个经典误区 吃果冻不吐果冻皮 · 公众号 · · 1 年前 · |