|
|
练习两天半,从零实现DeepSeek V4 CSA&HCA模块,原理讲解搭配最简代码实现,一看就懂 偷星九月333 · B站投稿视频 · · 4 天前 · |
|
|
[Agentic RL][25] slime自定义Agentic RL流程,带你实现一个Code A... 偷星九月333 · B站投稿视频 · · 6 天前 · |
|
|
[Agentic RL][24] slime:自定义程度最高的RL框架,从环境搭建(docker o... 偷星九月333 · B站投稿视频 · · 2 周前 · |
|
|
[Agent][08] Search Agent数据合成(图谱多跳推理、实体模糊、去噪轨迹生成) 偷星九月333 · B站投稿视频 · · 2 周前 · |
|
|
[知识蒸馏][08] 练习两周半,从零实现SDPO(Reinforcement Learning v... 偷星九月333 · B站投稿视频 · · 3 周前 · |
|
|
[Agentic RL][23] RL is all you need!verl core algo... 偷星九月333 · B站投稿视频 · · 4 周前 · |
|
|
[Agent][07] MCP-->CLI,双层渐进式披露,Agent时代的上下文工程 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
用上就离不开的手机AI助手,你的学习、工作好伴侣 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[Agentic RL][22] MAPO不是豆腐,是Mixed Advantage Policy ... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[RAG][01] RAG基础之向量数据库索引Flat、IVF、PQ、HNSW 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
练习两天半,从零实现kimi注意力残差,让马斯克点赞的kimi最新架构 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[Agent][01] Openclaw(nanobot) Agent架构剖析,最容易看懂的喂饭级解... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
Claude Code配置本地部署的大模型服务,所有非Claude系列模型也可以使用Claude C... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[Agentic RL][01] GiGPO算法详解 & VeRL-Agent-Loop VS Ve... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[post training][01] 练习两天半,从零实现SDFT(Self-Distillati... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
[ALL IN AI][序] AI系列视频简介和一些想法(Agent、RAG、TEXT2DATA、.... 偷星九月333 · B站投稿视频 · · 1 月前 · |
|
|
SAPO机制详解,大概率是Qwen3.5所用后训练算法(公式有点多,但很容易看懂) 偷星九月333 · B站投稿视频 · · 2 月前 · |
|
|
给PPO加上双重保险(双裁剪机制),让PPO稳中加稳 偷星九月333 · B站投稿视频 · · 2 月前 · |
|
|
MiniMax M2.5背后的RL算法:CISPO 完全解读 偷星九月333 · B站投稿视频 · · 2 月前 · |
|
|
解读KIMI K2.5 Agent Swarm,下一代Agent主流架构 偷星九月333 · B站投稿视频 · · 2 月前 · |