|
从理论到代码剖析DeepSeek-R1:从PPO到Reinforce++,再对比GRPO 大模型智能 · 公众号 · 大模型 · 5 月前 · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 5 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅 大模型智能 · 公众号 · 大模型 · 6 月前 · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
TinyZero:首个DeepSeek R1-Zero超低成本复现,不到30刀! 大模型智能 · 公众号 · 大模型 · 6 月前 · |
|
吴恩达力荐LangChain经典课程-《LangChain大型语言模型(LLM)应用开发》免费分享 大模型智能 · 公众号 · 大模型 · 6 月前 · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |
|
公众号 · 大模型 · 6 月前 · · |