|
🚀 DeepSeek开源周第四天:开源并行策略优化算法库 DualPipe 和 EPLB 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
DeepSeek最新开源FlashMLA性能简测 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
开源社区 DeepSeek R1 最新复现进展汇总 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
张俊林:Grok 3是否意味着大力出奇迹的大模型法则仍然成立? 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
重磅直播解析 | DeepSeek慢思考模型的技术解析与应用 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
聊聊Reasoning Model的精巧实现(ReFT, Kimi K1.5, DeepSeek R... 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
Qwen架构爆改为DeepSeek,再复现R1 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
清华开源KTransformers-让24GB显卡流畅运行满血DeepSeek-R1 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
详细谈谈DeepSeek MoE相关的技术发展 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |