|
|
DeepSeek 视觉语言大模型技术演进(从DeepSeek VL/VL2到DeepSeek OCR... 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
|
MOE RL实战:统一FP8全流程训练 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
|
为什么需要新的Attention架构?理解Kimi Linear的设计理念 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
|
什么?!你跟我说LLM的最后几层都没啥用?探索LLM层深到底有啥用! 吃果冻不吐果冻皮 · 公众号 · · 5 月前 · |
|
|
关于大模型和AGI的深刻洞见!汇聚多名顶级AI大佬智慧 吃果冻不吐果冻皮 · 公众号 · · 6 月前 · |
|
|
开源即爆火!英伟达重磅推出OmniVinci全模态大模型 吃果冻不吐果冻皮 · 公众号 · · 6 月前 · |