|
LLM实践系列-从零开始预训练1B级别大模型的心路历程 刘聪NLP · 公众号 · · 8 月前 · |
|
LLM实践系列—大模型的拒绝采样2 刘聪NLP · 公众号 · · 9 月前 · |
|
LLM实践系列-昇腾910B上进行Qwen2.5推理 刘聪NLP · 公众号 · · 9 月前 · |
|
LLM实践系列-细聊LLM的拒绝采样 刘聪NLP · 公众号 · · 9 月前 · |
|
面向中文有害表情包(meme)的综合性检测 刘聪NLP · 公众号 · · 9 月前 · |
|
OpenAI-O1之下,我们技术该何去何从 刘聪NLP · 公众号 · · 9 月前 · |
|
CartesianMoE:通过笛卡尔积路由提升专家间的知识共享 刘聪NLP · 公众号 · · 9 月前 · |
|
LLM实践系列-拯救Continue Pretrain的数据 刘聪NLP · 公众号 · · 9 月前 · |
|
超全!一文详解大型语言模型的11种微调方法 刘聪NLP · 公众号 · · 9 月前 · |
|
LLM实践系列-详谈Tokenizer训练细节 刘聪NLP · 公众号 · · 9 月前 · |
|
LLM实践系列-数据去重之Simhash&Minhash分析与实现 刘聪NLP · 公众号 · · 9 月前 · |
|
CodePMP:提升LLM推理能力的可扩展偏好模型预训练 刘聪NLP · 公众号 · · 9 月前 · |
|
全是细节 | 聊一聊做SFT的经验 刘聪NLP · 公众号 · · 10 月前 · |
|
Llama3.2开源:Meta发布1B和3B端侧模型、11B和90B多模态模型 刘聪NLP · 公众号 · · 10 月前 · |
|
长文 | Reverse-o1:OpenAI o1原理逆向工程图解 刘聪NLP · 公众号 · · 10 月前 · |
|
全是细节 | 聊一聊做Pretrain的经验 刘聪NLP · 公众号 · 科技媒体 · 10 月前 · |
|
Quest:一种以查询为中心的长文本数据合成方法 刘聪NLP · 公众号 · · 10 月前 · |
|
如何提升角色扮演大模型的拟人能力? 刘聪NLP · 公众号 · · 10 月前 · |