|
|
大模型直接预测下一个句子,更快、更准、更长! GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【PyTorch 奇技淫巧】介绍 depyf:轻松掌握 torch.compile GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
一文读懂 ONNX、TensorRT、OpenVINO部署框架 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【翻译】CUTLASS 教程:掌握 NVIDIA® 张量内存加速器 (TMA) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
一文读懂KVCache GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【翻译】深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用(文末送3本大模型书) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
人人都能看懂的DPO数学原理 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
一文讲清 NCCL 集合通信原理与优化 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
基于o1-preview解读 Optimized GPTQ INT4 Dequantization ... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
加速矩阵计算:英伟达TensorCore架构演进与原理最全解析 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE课程笔记 第12课,Flash Attention GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
使用Nsight Profiling工具对大模型进行性能调优 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【PyTorch 奇淫技巧】Async Checkpoint Save GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
Stable Video Diffusion 结构浅析与论文速览 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
vLLM源码之模型并行 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE课程笔记 第11课: Sparsity GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
FID 指标简介与修正 TorchEval FID 计算接口经历分享 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【翻译】教程:CUTLASS中的矩阵转置 (使用CuTe把矩阵转置优化到GPU内存带宽上下限) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
vLLM源码之框架执行 GiantPandaLLM · 公众号 · 3D · 1 年前 · |