专栏名称: 京东科技技术说

京东科技官方技术公众号，传递最佳实践&技术创新。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

解码大模型：技术篇《1.1-基础架构概念》

京东科技技术说 · 公众号 · 程序员 · 2025-09-01 16:57

主要观点总结

本章介绍了大模型的基础架构概念，包括Transformer架构、预训练与微调、模型规模与能力的关系、涌现能力、以及Mixture of Experts(MoE)架构等。详细阐述了这些概念的核心原理、发展历程、技术优势以及应用前景。通过对比密集模型与稀疏模型，展示了稀疏模型在解决模型规模增长带来的计算挑战中的作用，并介绍了MoE架构如何通过稀疏激活实现模型规模与计算效率的平衡。最后，提供了一些相关的视频教程、技术博客、实战教程和开源项目，以供参考。

关键观点总结

关键观点1: Transformer架构

Transformer是一种基于自注意力机制的深度学习架构，通过自注意力机制实现了高效的序列建模，成为了现代大模型的基础。

关键观点2: 预训练与微调

预训练与微调范式让模型先学习通用知识，再适配特定任务，极大提升了模型的实用性。

关键观点3: 模型规模与能力的关系

模型规模与能力呈幂律关系，更大的模型展现出更强的能力。

关键观点4: 涌现能力

涌现能力是大模型的独特现象，为AI应用开辟了新的可能性。

关键观点5: Mixture of Experts(MoE)架构

MoE架构通过稀疏激活实现了模型规模与计算效率的平衡，是稀疏模型的典型代表，代表了未来超大规模模型的发展方向。

关键观点6: 密集模型与稀疏模型

密集模型应用场景包括需要最高精度的任务、模型规模适中的部署环境、推理延迟要求不严格的情况。稀疏模型应用场景包括超大规模模型训练、边缘设备部署、需要动态计算资源分配的情况。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

OSC开源社区 · 看完这场直播，你就可以参加“AIGC For Future 全球挑战赛”了

12 小时前

程序员的那些事 · 微信这个改版翻车！无数用户直呼看不懂

19 小时前

程序员的那些事 · 特朗普家族搞 Token 中转站生意。网友：骗子做什么都是骗

19 小时前

OSC开源社区 · 微软开源迄今为止发现的最早DOS源代码，包含原始86-DOS 1.00汇编清单

昨天

21ic电子网 · 国内首家5G五星工厂，到底有什么特别？

1 年前

果业信息网 · deepseek对2025年苹果产量、价格预测

1 年前

医学界 · 救护车150公里转运13.5万，陈静瑜发声

9 月前

生信人 · Cell Genom最新力作！多组学+孟德尔随机化分析，破解血清代谢物与慢性疾病的遗传关联！

7 月前

新快报 · 员工请病假因步数超1.6万被开除

6 月前