专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
浅谈训推误差与 LLM RL 稳定性
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
垂直领域Agent落地:微调需要多少数据?
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
最近,大模型的招聘市场已经疯掉了。。。
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
Agentic RL全流程技术分析与总结(两万字)
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
强化学习策略约束和熵的统一视角
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
从0到1落地智能家居AI交互:LLaMA Factory & Qwen3-4B 微调实战指南
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
垂直领域 Agent 落地:用8B模型训练垂直Agent全部细节
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
垂直领域 Agent 落地:为什么我放弃235B/671B,转而训练8B?
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
RL算法推导!PPO -> GRPO -> DAPO -> GSPO -> SAPO
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
读懂 AI Infra,看这六个关键词就够了
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
R1一周年,DeepSeek Model 1悄然现身
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
[通俗易懂]传统RL算法应用到LLM推导(从REINFORCE到XPO)
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
Anthropic万字长文:一篇AI Agent评估体系的详细解析!
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
深度剖析!大模型推理系统的关键技术与架构演进
吃果冻不吐果冻皮  ·  公众号  ·  ·  3 月前  · 
榨干H100算力!GLM-4.6V×vLLM 极致推理实战:从9B到106B MoE的全链路优化
吃果冻不吐果冻皮  ·  公众号  ·  ·  4 月前  ·