专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
目录
今天看啥  ›  专栏  ›  AINLPer

LLM每周速递!大模型最前沿:复杂推理大模型、多模态、长文本推理提升、智能体等

AINLPer  · 公众号  · 科技自媒体  · 2024-11-24 22:14
    

主要观点总结

本文总结了最近一周有关大模型(LLMs)的最新研究进展,涉及复杂推理大模型、长文本处理、大模型Agent、LLM训练成本降低、多模态大模型、手机大模型等热门研究领域。

关键观点总结

关键观点1: “Marco-o1”复杂推理大模型发布

阿里国际发布了Marco-o1模型,该模型通过微调Qwen2-7B-Instruct和过滤后的Open-o1 CoT数据集等技术,提高了对复杂任务的处理能力,特别是在没有严格评估指标的领域。

关键观点2: NUS提出AnchorAttention解决长文本处理问题

NUS提出了AnchorAttention方法,这是一种即插即用的注意力方法,减少了BFloat16的数值问题,提高了处理长文本的能力,并加快了训练速度。实验表明,AnchorAttention在长文本处理上表现更好,训练时间比传统方法缩短了一半以上。

关键观点3: 港大提升LLM长文本推理能力

港大提出了SEALONG方法,优化来提升LLMs的长文本推理能力。实验显示,SEALONG有效,特别是在Llama-3.1-8B-Instruct模型上提升了4.2个百分点。

关键观点4: 夏大降低LLM训练成本

夏大的研究者提出了一种新的学习率路径切换训练范式,旨在降低LLMs的训练成本。实验证明,这种范式在保持训练效果的同时,能大幅降低训练成本,尤其是在训练多个版本的LLMs时。

关键观点5: Apple的MM1多模态大模型系列

Apple研究了如何构建高效的多模态大语言模型(MLLMs),并分析了不同架构和数据选择的重要性。基于这些发现,构建了MM1模型家族,包括高达30B参数的密集模型和高达64B参数的专家混合模型。

关键观点6: 南大的区域感知文生图RAG

南大提出了一种基于区域描述的精确感知的生成方法——RAG(Regional-Aware text-to-image Generation),支持区域重绘功能,并在属性绑定和对象关系上表现优异。

关键观点7: Xmodel-1.5:十亿参数多语言大型模型

提出了一种新颖的十亿参数多语言大型模型Xmodel-1.5,在多种语言表现出强大的性能。特别是在泰语、阿拉伯语和法语上取得了显著成果。

关键观点8: VIVO的手机多模态大模型BlueLM-V-3B

VIVO推出了专为移动平台高效部署MLLMs设计的算法和系统协同设计方法BlueLM-V-3B。它具有体积小、速度快、性能强等特点。

关键观点9: JHU的Genex框架提升Agent决策能力

JHU提出了Genex框架,让Agent在心理上探索3D世界并获取想象的观察来更新其信念,做出更好的决策。此外还创建了Genex-DB数据集。

关键观点10: 清华的SageAttention2实现注意力加速加倍

清华提出了SageAttention2,采用更快的4位矩阵乘法和额外的精度增强技术,实现了注意力机制的加速。此外还提出了自适应量化方法,确保不同模型的端到端指标。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照