|
|
超大模型加载转换Trick GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE 课程笔记 第四课: PMPP 书的第4-5章笔记 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
FlashAttention-3 发布!比FlashAttention-2 快 1.5-2.0 倍 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
AI时代进击的CPU们 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
· 公众号 · 3D · 1 年前 · |
|
|
我爱DeepSpeed-Ulysses:重新审视大模型序列并行技术 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
图解大模型计算加速系列:分离式推理架构1,从DistServe谈起 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE 课程笔记 第二课: PMPP 书的第1-3章速通 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE 第一课课后实战(上) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
· 公众号 · 3D · 1 年前 · |
|
|
[LLM推理优化][4w字] TensorRT-LLM部署调优-指北 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA ker... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
kimi chat大模型的200万长度无损上下文可能是如何做到的? GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
窥探Triton的lower(三) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
[KV Cache优化]MQA/GQA/YOCO/CLA笔记: 层内和层间KV Cache共享 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
· 公众号 · 3D · 1 年前 · |
|
|
MLIR_对自定义IR Dialect编写bufferization pass GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
NVIDIA Nemotron-4 340B 开源技术报告(二) | 你想要的都在这里 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
NVIDIA Nemotron-4 340B 开源技术报告 | 你想要的都在这里 GiantPandaLLM · 公众号 · 3D · 1 年前 · |