|
|
Deepseek的RL算法GRPO解读 刘聪NLP · 公众号 · · 1 年前 · |
|
|
DeepSeek最大的贡献是什么? 刘聪NLP · 公众号 · · 1 年前 · |
|
|
DeepSeek R1爆火后,该如何理解 LLM 中的 RL 算法? 刘聪NLP · 公众号 · · 1 年前 · |
|
|
s1推理模型=数据筛选+推理预算强制,也提醒大家不要进入思维误区 刘聪NLP · 公众号 · · 1 年前 · |
|
|
部署满血DeepSeek R1的避坑指南-vLLM 0.7.1 刘聪NLP · 公众号 · · 1 年前 · |
|
|
Kimi发布最新模型k1.5,技术报告也干货满满 刘聪NLP · 公众号 · · 1 年前 · |
|
|
Agent的亲身经历,从开始到放弃 刘聪NLP · 公众号 · · 1 年前 · |