凯发国际,凯发国际登录,凯发国际官网,凯发国际娱乐,凯发国际注册,凯发娱乐K8,尊龙凯时本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。
谷歌表示,Gemma 3n 代表了设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
多模态设计:Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。专为设备端优化:Gemma 3n 型号以效率为设计重点,提供两种基于有效参数尺寸:E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B,但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当,仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。架构突破:Gemma 3n 的核心是全新组件,例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。质量提升:Gemma 3n 在多语言(支持 140 种文本语言和 35 种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。E4B 版本的 LMArena 得分超过 1300,使其成为首个达到此基准的 100 亿参数以下模型。
谷歌表示,要想实现设备性能的飞跃需要彻底重新思考模型。Gemma 3n 独特的移动优先架构是其基础,而这一切都始于 MatFormer。
Gemma 3n 的核心是 MatFormer(Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套 Transformer。你可以将其想象成俄罗斯套娃:一个较大的模型包含其自身更小、功能齐全的版本。这种方法将俄罗斯套娃表征学习的概念从单纯的嵌入扩展到所有 Transformer 组件。
因此,MatFormer 在训练 4B 有效参数 (E4B) 模型时,会同时优化 2B 有效参数 (E2B) 子模型,如上图所示。这为开发者提供了两项强大的功能和用例:
预提取模型:开发者可以直接下载并使用 E4B 模型以获得更高性能,或者使用已提取的独立 E2B 子模型,提供两倍更快的推理速度。使用 Mix-n-Match 自定义尺寸:为了根据特定硬件限制进行更精细的控制,你可以使用谷歌称之为 Mix-n-Match 的方法,在 E2B 和 E4B 之间创建一系列自定义尺寸的模型。这项技术允许人们精确地对 E4B 模型的参数进行切片,主要通过调整每层的前馈网络隐藏层维度(从 8192 到 16384)并选择性地跳过某些层来实现。谷歌还将发布 MatFormer Lab,以展示如何检索这些最佳模型,这些模型是通过在 MMLU 等基准测试中评估各种设置而确定的。
展望未来,MatFormer 架构也为弹性执行铺平了道路。虽然此功能不属于今天发布的实现,但它允许单个部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载实时优化性能和内存使用情况。
Gemma 3n 模型采用了逐层嵌入 (PLE) 技术。这项创新专为设备部署而设计,可大幅提高模型质量,同时不会增加设备加速器 (GPU/TPU) 所需的高速内存占用。
虽然 Gemma 3n E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,但 PLE 允许很大一部分参数(与每层相关的嵌入)在 CPU 上加载并高效计算。这意味着只有核心 Transformer 权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。
通过每层嵌入,你可以使用 Gemma 3n E2B,同时仅在 AI 加速器中加载约 2B 个参数。
处理长内容输入(例如来自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma 3n 引入了键值缓存共享 (KV Cache Sharing),旨在加快流式响应应用的首个 token 获取时间 (Time-to-first-token)。
KV Cache Sharing 优化了模型处理初始输入处理阶段(通常称为「预填充」阶段)的方式。来自局部和全局注意力机制的中间层的键和值将直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提升了两倍。这意味着模型能够比以往更快地提取和理解较长的提示序列。
在语音方面,Gemma 3n 采用基于通用语音模型(USM)的高级音频编码器。该编码器每 160 毫秒的音频生成一个 token(约每秒 6 个 token),然后将其作为语言模型的输入进行集成,从而提供声音上下文的精细表示。
自动语音识别 (ASR):直接在设备上实现高质量的语音到文本的转录。自动语音翻译 (AST):将口语翻译成另一种语言的文本。
经过实践可知,Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的翻译 AST 效果尤为出色。对于语音翻译等任务,利用「思维链」提示可以显著提升翻译效果。以下是示例:
Gemma 3n 编码器在发布时已可以处理长达 30 秒的音频片段,但这并非极限。底层音频编码器是一个流式编码器,能够通过额外的长音频训练处理任意长度的音频。后续的实现将解锁低延迟、长流式传输应用程序。
除了集成的音频功能外,Gemma 3n 还配备了全新的高效视觉编码器 MobileNet-V5-300M,为边缘设备上的多模态任务提供最先进的性能。
MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计,可为开发人员提供:
多种输入分辨率:本机支持 256×256、512×512 和 768×768 像素的分辨率,让开发者能够平衡特定应用的性能和细节。通用的视觉理解:在广泛的多模式数据集上进行了联合训练,在各种图像和视频理解任务中表现出色。高吞吐量:在 Google Pixel 上每秒处理高达 60 帧,实现实时设备视频分析和交互式体验。
得益于新架构设计和先进蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的表现显著优于基线 SoViT(使用 SigLip 训练,未进行蒸馏)。在 Google Pixel Edge TPU 上,它在量化的情况下实现了 13 倍的加速(不使用量化的情况下为 6.5 倍),所需参数减少了 46%,内存占用减少了 4 倍,同时在视觉语言任务上实现了更高的准确率。
谷歌表示,更多细节会在即将发布的 MobileNet-V5 技术报告中展示。
5 月 20 日,谷歌 DeepMind 在 I/O 大会上宣布了 Gemma-3n,其小体量、高性能和低内存占用的特性让人印象深刻。
谷歌的首个 Gemma 模型于去年年初发布,目前该系列的累计下载量已经超过了 1.6 亿次。
06月25日,西南华南等地多阵雨雷阵雨局地有暴雨 华北黄淮局地有雷暴大风,欧亚体育首页官网网址,伟德体育app在哪下载,博狗网平台,biwin体育
06月25日,祁连山国家公园野生动物救护繁育站成功放归2只猛禽,欧亿注册登录,博狗网页版,米乐体育官网登录,凯发k8娱乐首页
06月25日,TVB“万千星辉颁奖典礼2023”澳门举行 佘诗曼三封“视后”,米乐客户端下载,必赢亚洲登录不了,娱乐网站评级,365bet官网论坛
06月25日美国会众议员奎利亚尔因受贿、洗钱等被起诉哪个软件能玩二八杠奥门新匍京app下载澳门人巴黎人网站癞子斗地主
06月25日“莎头组合”获胜!王楚钦/孙颖莎奥运后混双首秀战胜中国香港组合手机抢庄牛牛大发官网天博官网APP登录网页版dafabet888唯一登录网站
06月25日人民英雄永垂不朽——人民英雄纪念碑碑文敬读哪个平台可以买亚盘斗球下载网址是什么188比分直播旧版本爱游戏体育入口app……
06月25日,刑事拘留!两名网络主播直播“约架” 其实是剧本……,皇冠体育玩法,b0b体育平台咋样,澳门太阳集团城官网,玄机彩图
06月25日线上线下互动 国家图书馆推出多项龙年春节文化大餐ag真人下载网址手机版电玩城app澳门高美胜娱乐澳门星际网是什么
06月25日,“2024美丽乡村——中日青少年欢乐跑”在日本千叶县铫子市举办,球探体育足球比分分析,最权威的网投平台,mg手机游戏注册,手机版舞会森林
06月25日,护腰不难,先告别“沙发瘫”|科普时间 ,炸金花赢钱的软件app,乐博网站是什么,下载体育在线日,新能源汽车出海步伐加快(产经观察·走近“新三样”),现钱扎金花,澳门皇冠我们在这里等你,晓游游戏大厅,星力捕鱼正版
猫妈拒绝陌生人拐走它的崽培育更多世界一流企业,FPX横扫JDG飞行摄影师诺敏·何:做驰骋天际的“光影诗人”必威官方登陆入口炸金花在哪可以下载真人扎金花游戏大厅天天斗牛
魔方问世50年销量仍在增长,考研国家线离别时大陆师生不停挥手比心高喊“再见” ,萧旭岑:他们感谢台湾民众的热情好客,我很感动!j9九游会登录入口首页旧版伟德买球国际学术界认定满人与女真人关系体球网足球
俄外长:欧洲官员看见我掉头就跑,中国跨境电商App在韩国用户数暴涨青海西宁:“福龙”花馍“蒸出”年味日博体育全站APP真人德州苹果版宝博体育官网AG真人备用网址
美制裁下中国半导体出口破万亿,美以防长8天内5次通话国防部长董军集体会见出席第二届几内亚湾安全形势专题研讨会的各国代表团团长 鑫百利客服微信推二八杠的的技巧杏彩平台登录官网千亿体育登陆