今天看啥  ›  专栏  ›  arXiv每日学术速递

谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

arXiv每日学术速递  · 公众号  · 科技创业 科技自媒体  · 2025-06-27 14:22
    

主要观点总结

谷歌发布了全新的端侧多模态大模型 Gemma 3n,该模型为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能。Gemma 3n具有多模态设计、专为设备端优化、架构突破、质量提升等特点。

关键观点总结

关键观点1: Gemma 3n 的发布和特性

Gemma 3n是谷歌新发布的端侧多模态大模型,具有多模态设计、专为设备端优化、架构突破、质量提升等特点。

关键观点2: Gemma 3n 的核心架构

Gemma 3n的核心架构包括 MatFormer(Matryoshka Transformer)架构、逐层嵌入 (PLE) 技术和键值缓存共享 (KV Cache Sharing)。这些技术提高了模型的性能、内存效率和推理速度。

关键观点3: Gemma 3n 的性能提升

与去年的云端先进模型相比,Gemma 3n 在多语言、数学、编码和推理方面实现了质量提升。E4B 版本的 LMArena 得分超过 1300,成为首个达到此基准的 100 亿参数以下模型。

关键观点4: MatFormer架构的特点

MatFormer架构是一种新型嵌套Transformer,可以适应不同硬件限制和推理需求。它允许开发者根据需要创建不同尺寸的模型,并在 E4B 和 E2B 推理路径之间动态切换,以优化性能和内存使用。

关键观点5: 逐层嵌入 (PLE) 技术的优势

PLE技术专为设备部署而设计,可大幅提高模型质量,同时不会增加设备加速器所需的高速内存占用。它使得Gemma 3n能够在内存占用较低的情况下运行,提高了模型的实用性。

关键观点6: 键值缓存共享 (KV Cache Sharing) 的作用

KV Cache Sharing旨在加快流式响应应用的首个 token 获取时间。通过优化模型处理初始输入的方式,Gemma 3n能够更快地提取和理解较长的提示序列。

关键观点7: Gemma 3n 的视觉编码器

Gemma 3n配备了最新的高效视觉编码器MobileNet-V5-300M,为边缘设备上的多模态任务提供最先进的性能。该编码器支持多种输入分辨率,具有通用视觉理解和高吞吐量的特点。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照