|
|
【翻译】教程:在PyTorch中为CUDA库绑定Python接口 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
· 公众号 · 3D · 1 年前 · |
|
|
NVidia GPU指令集架构-浮点运算 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
GLM-4-Flash官方API免费了,体验一下 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【PyTorch 奇淫技巧】Python Custom Operators翻译 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
LLM101N:用C++实现micrograd,手把手从零教你 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
LLM训练手法系列:直接偏好优化DPO GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
【翻译】Accelerating Llama3 FP8 Inference with Triton ... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
· 公众号 · 3D · 1 年前 · |
|
|
CUDA-MODE课程笔记 第9课: 归约(也对应PMPP的第10章) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
TensorRT-LLM初探(三)最佳部署实践 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
通过微基准测试和指令级分析(Instruction-level Analysis)揭秘英伟达Ampe... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
[Hopper 架构特性学习笔记 Part1] Distributed Shared Memory GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
H100 vs. A100 和 4090 vs. A10 实测性能(一)算力篇 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
ICML2024 : Bandwidth Efficient Attention - 保精度下8~3... GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
vLLM源码之PagedAttention(持续更新) GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
大模型训练:Megatron-Kwai中的内存优化 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
GLM大模型的机器翻译能力测试 GiantPandaLLM · 公众号 · 3D · 1 年前 · |
|
|
LLM101n 硬核代码解读:Micrograd,一个轻量级的自动微分引擎 GiantPandaLLM · 公众号 · 3D · 1 年前 · |