英伟达优化Gemma 4本地运行,推动本地Agent AI落地
创始人
2026-04-03 08:51:55

AIPress.com.cn报道

4月3日消息,英伟达发布技术博客称,已与谷歌合作对Gemma 4开源模型进行优化,使其能够在英伟达 GPU生态中高效运行,从RTX PC到DGX Spark个人AI超级计算机以及Jetson边缘设备均可部署,从而推动本地“Agentic AI”应用的发展。

Gemma 4是谷歌DeepMind最新发布的开源模型家族,包括E2B、E4B、26B和31B四种规模。英伟达表示,这些模型在保持较小体积的同时具备较强推理、代码生成和多模态能力,可在本地设备上完成复杂任务。通过针对英伟达 GPU的优化,Gemma 4能够在从数据中心到个人电脑的多种硬件环境中高效运行。

在功能方面,Gemma 4支持复杂推理、代码生成与调试,并原生支持函数调用等结构化工具使用能力,使其能够作为AI代理执行自动化任务。模型还具备多模态处理能力,可处理图像、视频与音频,并支持在同一提示中混合文本和图像输入。语言方面,模型支持35种以上语言的直接使用,并在超过140种语言数据上进行预训练。

其中E2B和E4B模型主要面向边缘设备与移动端部署,强调低延迟和离线运行能力,可在Jetson Nano等设备上实现接近实时的推理性能。26B和31B模型则更适合开发者工作流和高性能推理任务,能够在RTX GPU和DGX Spark设备上支持本地代码助手、开发工具和AI代理应用。

英伟达表示,随着本地AI代理逐渐成为重要应用形态,一些软件已经开始利用这些模型构建常驻本地的智能助手。例如OpenClaw平台已兼容Gemma 4,使用户可以构建访问本地文件、应用程序和工作流程的AI代理,以自动化日常任务。

在部署方面,Gemma 4模型可以通过Ollama或llama.cpp在本地运行,也可以从Hugging Face下载GGUF格式模型权重。英伟达还与Unsloth合作提供优化版本,以支持更高效的本地微调和部署。

英伟达表示,借助GPU中的Tensor Core加速以及CUDA软件栈,Gemma 4等开源模型可以在不同硬件平台上实现更高吞吐量和更低延迟,使开发者能够在本地设备上运行复杂AI应用,而不必完全依赖云端计算资源。(AI普瑞斯编译)

相关内容

热门资讯

A股融资余额首破2.9万亿元 ... 数据来源:东方财富网 证券时报记者 毛军 本周,A股震荡调整。前期大涨的科技股出现一定回...
闻“汛”而动筑牢“三道防线” ... 央视网消息:极端强降雨频发,对防汛防御体系提出严峻考验。洪灾、内涝如何防御?水利专家表示,筑牢防汛的...
贵阳花果园闪婚骗局调查:娶妻流... 两次见面即领证,给了30.8万元后,男子想带媳妇回家安稳过日子,孰料回家仅两天女方便找借口一去不返。...
芜湖首次发现!像蜈蚣的兰花现身... 大皖新闻讯5月30日傍晚,大皖新闻记者从南陵县生物多样性本底调查团队获悉,该团队成员、芜湖职业技术大...
武汉官宣:建“创新特区”! 5月30日,周六,武汉开了一场特殊会议——武汉市激发产业创新活力专项行动推进会。会上,武汉提出: 加...