|
英伟达发布AutoScale:自动预测大模型训练的最优计算数据组合 | 哪些预训练因素影响LLM在因... AI for Research · 公众号 · · 1 年前 · |
|
如何通过继续训练及合成数据有效提升大模型在特定领域能力同时维持其通用性能?通过历史一致性提高泛化能力... AI for Research · 公众号 · · 1 年前 · |
|
本周大模型Top热门论文精选 —— 24年第30期 AI for Research · 公众号 · · 1 年前 · |
|
大模型超长文本KV-Cache存储消费级优化方法综述!解密大模型中的逐字记忆现象.... AI for Research · 公众号 · · 1 年前 · |
|
持续预训练关键混合比例预测:CMR缩放定律!揭秘in-context学习:理解其工作机制的坐标系统.... AI for Research · 公众号 · · 1 年前 · |
|
Llama3发布405B技术报告!大模型对齐技术全调研:RLHF、RLAIF、PPO、DPO | 通... AI for Research · 公众号 · · 1 年前 · |
|
模型记忆力减少是模型能力涌现的前提?40万Token上下文!无需长度外推技术也能解决上下文长度限制问... AI for Research · 公众号 · · 1 年前 · |
|
Phi-3 发布最新后训练安全对齐研究 | 大模型在医学领域特定任务预训练与通用对比 | 英伟达发布... AI for Research · 公众号 · · 1 年前 · |
|
本周大模型Top热门论文精选 —— 24年第29期 AI for Research · 公众号 · · 1 年前 · |
|
复旦发布“弱到强的推理方法”:AI能够自学,比人类更好推理! 词汇缩放定律:模型越大词汇量也应越大! AI for Research · 公众号 · · 1 年前 · |
|
撸羊毛的机会来了!上海AI实验室发布书生大模型免费学习实战计划,A100免费用~ AI for Research · 公众号 · · 1 年前 · |
|
8卡实现100万长度7B模型高效训练!Transformer什么情况下能够进行组合泛化? AI for Research · 公众号 · · 1 年前 · |
|
大模型推理最新研究综述!多视角任意静态3D模型动画生成;在100万token上下文窗口中进行检索和推... AI for Research · 公众号 · · 1 年前 · |
|
阿里同时发布Qwen2 、Qwen2-Audio技术报告!WildVidFit:虚拟试穿视频生成..... AI for Research · 公众号 · 科技媒体 · 1 年前 · |
|
复旦发布Bora:生物医学通用视频生成模型 | H2O-Danube 3 发布技术报告.... AI for Research · 公众号 · · 1 年前 · |
|
本周大模型Top热门论文精选 —— 24年第28期 AI for Research · 公众号 · · 1 年前 · |
|
大模型中数学推理的数据缩放定律!Flash-Attention升级至V3版,H100 GPU 速度提... AI for Research · 公众号 · · 1 年前 · |
|
大模型预训练加速:桶预训练就是你所需的一切!模型能力涌现本质是因为训练时的数据差异造成的?英伟达发布... AI for Research · 公众号 · · 1 年前 · |
|
数据无处不在:预训练数据集构建指南 | 熵定律:数据压缩与大模型性能的关系.... AI for Research · 公众号 · · 1 年前 · |
|
代码大模型的内部工作原理探索:早期的层更像在“思考”?大模型训练后的自我改进反转现象研究... AI for Research · 公众号 · · 1 年前 · |