专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
从论文中积累复现 R1 的 insight
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
思考 RLHF 的本质以及主流算法思路
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
从Math RL初窥LLM推理模型:是怎么work、哪些trick是有效的!
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
好文推荐!从强化学习到DeepSeek R1
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
宇树科技官方|人形机器人算法系统如何打造?
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
OpenAI深夜发布满血o3和o4mini: 两个没想到
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
3700次预训练总结超参规律,开源海量实验,告别盲猜
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
超过R1!字节Seed-Thinking-v1.5技术报告
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
思考一下!强化学习在LLM训练中的作用
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
Llama 4 训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
PPO 算法的37个实现细节
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
聊聊 LLM 推理引擎中,那些已经成为事实标准的优化方法
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
吃果冻不吐果冻皮  ·  公众号  ·  ·  4 月前  ·