|
|
· 公众号 · 大模型 · 1 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
mHC|mHC如何在保留性能的同时修复训练不稳定 深度图学习与大模型LLM · 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
LLM推理 | 通过自蒸馏进行强化学习(SDPO) 深度图学习与大模型LLM · 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 2 月前 · |
|
|
· 公众号 · 大模型 · 4 月前 · |
|
|
· 公众号 · 大模型 · 4 月前 · |
|
|
· 公众号 · 大模型 · 4 月前 · |
|
|
ACON:面向长对话Agent的上下文压缩框架 深度图学习与大模型LLM · 公众号 · 大模型 · 4 月前 · |
|
|
· 公众号 · 大模型 · 5 月前 · |
|
|
· 公众号 · 大模型 · 6 月前 · |
|
|
· 公众号 · 大模型 · 6 月前 · |
|
|
· 公众号 · 大模型 · 7 月前 · |
|
|
· 公众号 · 大模型 · 8 月前 · |
|
|
RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角 深度图学习与大模型LLM · 公众号 · 大模型 · 8 月前 · |
|
|
arxiv 202508: 语义结构在大型语言模型嵌入中的体现 深度图学习与大模型LLM · 公众号 · 大模型 · 8 月前 · |