哈工大开源“活字3.5”对话大模型

赛尔实验室 · 公众号 · 程序员 · 2024-09-12 16:15

主要观点总结

本文介绍了哈尔滨工业大学社会计算与信息检索研究中心的最新成果——活字3.5自然语言处理模型。该模型是在活字3.0和Chinese-Mixtral-8x7B基础上进一步增强的模型，支持32K长上下文，并在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等方面实现了性能提升。文章还介绍了模型的训练过程、性能评测、生成样例、结语、开源协议、引用和参考文献。

关键观点总结

关键观点1: 活字3.5模型的特点和优势

活字3.5模型是在活字3.0基础上进一步增强的模型，具有强大的自然处理能力。它支持32K长上下文，并在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等方面实现了性能提升。此外，该模型还具有稀疏混合专家模型（SMoE）的结构特点，有效提升了计算效率和处理速度。

关键观点2: 模型的训练过程

活字3.5模型的训练过程包括多个步骤，包括中文扩词表增量预训练、基于Chinese-Mixtral-8x7B的微调、使用活字1.0数据集进行指令微调、强化指令遵循能力、模型融合以及融合后训练等。

关键观点3: 模型的性能评测

活字3.5模型在多个评测数据集上进行了性能评测，包括C-Eval、CMMLU、MMLU等。测试结果显示，活字3.5在推理时仅激活13B参数，相对于活字3.0取得了较稳定的性能提升。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博