Gemini 3.5 Flash内置Computer Use:AI Agent的
摘要2026年6月24日谷歌宣布将Computer Use能力原生集成至Gemini 3.5 Flash模型彻底淘汰此前独立的Gemini 2.5 Computer Use测试框架。这一更新使AI Agent无需复杂代码即可看懂屏幕、操控浏览器与桌面软件真正成为能自主处理重复工作的数字助手。谷歌同步上线Browserbase在线演示平台Chrome 149稳定版新增屏幕拾取快捷功能并从安全层面部署了对抗训练防御模型与两套企业安全方案。这意味着AI Agent的手正式长出来了——从只能对话进化到能看会做。核心结论Computer Use原生集成是AI Agent发展的里程碑事件——它将Agent的交互界面从API和文本拓展到了图形用户界面GUI使AI能操作任何人类可用的软件而无需专用接口。这是AI从工具升级为操作者的关键一步。一、什么是Computer Use为什么它是Agent的手1.1 核心概念Computer Use是一种让AI模型直接理解和操作计算机界面的能力。传统AI Agent通过API如Function Calling、MCP协议与外部工具交互——这要求每个目标软件都提供标准化的编程接口。而Computer Use直接绕过了这个限制AI通过看屏幕→理解界面→模拟人类操作来完成任何软件任务。Google在官方博客中这样描述“Gemini already excels at function calling and using built-in tools like Search and Maps grounding. With built-in computer use capability, developers can now use 3.5 Flash to reliably build custom agents that can see, reason and take action across browser, mobile and desktop environments.”1.2 从Gemini 2.5独立模型到3.5 Flash原生集成的进化对比维度Gemini 2.5 Computer Use旧Gemini 3.5 Flash Computer Use新形态独立专用模型内置工具built-in tool模型基座Gemini 2.5已淘汰Gemini 3.5 Flash主力模型性能基准~40%任务成功率~68%任务成功率70%推理速度~45 tokens/s~280 tokens/s523%成本独立API调用与文本调用统一计费适用场景仅浏览器操作浏览器移动端桌面三端数据来源Google AI官方博客2026-06-24、Google Gemini API Changelog2026-06-25二、技术架构屏幕→理解→动作2.1 三层执行架构┌─────────────────────────────────────────────┐ │ 应用层Agent定义 │ │ 开发者定义任务目标、操作范围、安全策略 │ ├─────────────────────────────────────────────┤ │ Computer Use 内置工具 │ │ ┌─────────┐ ┌──────────┐ ┌─────────────┐ │ │ │ 屏幕感知 │→│ 意图理解 │→│ 动作执行 │ │ │ │ 截屏→视觉│ │ 理解UI元 │ │ 点击/输入/ │ │ │ │ 嵌入→DOM│ │ 素→任务规 │ │ 滚动/切换 │ │ │ │ 解析 │ │ 划 │ │ 窗口 │ │ │ └─────────┘ └──────────┘ └─────────────┘ │ ├─────────────────────────────────────────────┤ │ Gemini 3.5 Flash 基座 │ │ 280 tokens/s · 150万Token上下文 │ └─────────────────────────────────────────────┘屏幕感知层对目标界面进行截屏通过视觉编码器提取UI元素按钮、输入框、文本区域、图标等及其空间关系同时解析DOM结构获取可访问性元数据。意图理解层将自然语言任务目标转化为结构化的操作序列。例如帮我在Google Sheets里汇总Q2销售数据会被拆解为打开Google Sheets → 定位Q2工作表 → 提取数据列 → 计算汇总 → 写入结果单元格。动作执行层通过简化的Intents动作原语执行具体操作——click、type、scroll、drag、wait、screenshot等屏蔽不同操作系统和浏览器的底层差异。2.2 简化的Intents动作原语Google为Computer Use设计了一套高层动作原语Intents避免Agent直接操作底层DOM或OS API带来的复杂性和安全风险# Gemini 3.5 Flash Computer Use 动作示例fromgoogleimportgenai clientgenai.Client()responseclient.models.generate_content(modelgemini-3.5-flash,contents帮我在这个网页上找到登录按钮并点击,tools[{computer_use:{display:{width:1920,height:1080},environment:browser# browser | mobile | desktop}}])# 模型返回结构化动作序列简化示意# 1. screenshot → 识别到右上角登录按钮 (坐标: 1680, 25)# 2. click → target(1680, 25)# 3. wait → 等待登录弹窗出现# 4. type → targetemail_input, valueuserexample.com关键设计理念Intents层的抽象使得同一套Agent代码可以在Chrome、Safari、移动端WebView甚至桌面应用上运行无需为每个平台单独适配。三、安全机制对抗训练双重企业防护3.1 对抗训练防御指令注入Computer Use最大的安全风险是间接指令注入Indirect Prompt Injection——恶意网页在DOM中嵌入隐藏指令诱骗AI Agent执行非预期操作。Google的应对方案是针对性对抗训练Targeted Adversarial Training在训练阶段注入大量恶意指令样本包括隐藏文本、CSS伪元素、JavaScript动态注入等训练模型识别并忽略非用户意图的页面内容配套发布Best Practices文档建议开发者在沙箱环境中运行Agent3.2 双重企业安全方案Google同步发布了两套可选的企业安全防护系统安全方案功能适用场景人工确认机制敏感操作删除文件、提交支付、发送邮件需要人工明确确认金融、医疗、法律等高风险行业异常冻结机制检测到间接指令注入时自动停止任务大规模自动化测试、批量数据处理“Defense-in-depth”纵深防御是Google推荐的最佳实践组合使用对抗训练模型 人工确认 安全沙箱 严格访问控制。四、Chrome 149协同更新屏幕拾取快捷功能Google同步推送了Chrome 149稳定版新增屏幕拾取Screen Pick快捷功能框选即分析在网页上框选任意区域的文字或图片一键喂给Gemini生成问答、总结内容节省90%操作步骤无需复制→切换窗口→粘贴→提问全程在浏览器内完成上下文感知拾取内容会自动携带当前页面URL和标题作为上下文提升回答准确性这一功能看似简单实际上是为Computer Use的普及做用户体验铺垫——让用户先习惯AI直接操作网页内容的交互范式。五、行业影响三端打通意味着什么5.1 软件测试领域将首先被颠覆传统端到端测试E2E Testing依赖Selenium、Playwright等框架编写固定脚本。Computer Use使无需编写测试脚本的自主探索式测试成为可能AI Agent自动遍历应用的所有页面和功能发现UI异常、响应错误、布局错位等问题生成人类可读的测试报告Google已确认多家企业客户在内部使用Computer Use进行持续软件测试测试覆盖率提升3-5倍。5.2 RPA机器人流程自动化行业面临重塑传统RPA工具UiPath、Automation Anywhere等依赖手动录制的操作流程维护成本高。Computer Use提供了更灵活的替代方案零录制自然语言描述任务即可自愈能力UI变化时自动适应传统RPA脚本UI微小变化就崩溃跨应用操作可同时操作浏览器桌面应用移动端5.3 AI Agent能力矩阵补齐最后一块短板Agent能力维度2025年状态2026年6月状态语言理解与推理✅ 成熟✅ 成熟工具调用API/MCP✅ 成熟✅ 成熟记忆与上下文⚠️ 发展中✅ Claude Tag/Conway多模态感知⚠️ 基础✅ GPT-5.6/Gemini计算机操作❌ 缺失✅Gemini 3.5 Flash Computer UseComputer Use补齐了Agent能力矩阵的最后一块短板——AI终于能像人类一样操作任何软件。六、FAQQ1Computer Use和传统RPA有什么区别A传统RPA需要人工录制固定操作流程UI变化时脚本容易崩溃Computer Use是AI看懂屏幕后自主规划操作适应UI变化的能力更强。但Computer Use目前的操作精度~68%任务成功率仍低于精心维护的RPA脚本95%短期内两者是互补关系。Q2Computer Use会取代API集成吗A不会。API集成效率更高、成本更低、可靠性更强。Computer Use适用于没有API的遗留系统、第三方网站、需要跨应用操作的场景。API集成和Computer Use是互补关系不是替代关系。Q3安全风险有多大如何在企业环境中使用AGoogle已部署对抗训练防御间接指令注入并提供了双重企业安全方案人工确认异常冻结。建议企业(1) 在隔离沙箱中运行Agent(2) 不给Agent财务/删除等敏感权限(3) 保留完整的操作日志用于审计。Q4成本如何比人工操作便宜吗AGemini 3.5 Flash的API价格为输入$0.075/1M tokens、输出$0.30/1M tokens。一次典型网页操作截图理解动作约消耗500-2000 tokens成本约$0.0002-0.0006。批量自动化任务成本远低于人工但复杂长流程任务的Token消耗可能显著增加。Q5中国用户可以使用吗AGemini API需要通过Google Cloud访问中国大陆用户需使用合规的云服务通道。但技术方向上国内厂商正在跟进——字节豆包2.1 Pro、智谱GLM-5.2都已具备多模态理解能力Computer Use功能的本地化版本值得期待。参考资料Google AI官方博客(2026-06-24). “Introducing computer use in Gemini 3.5 Flash”Google Gemini API Changelog(2026-06-25). “Release Notes: Computer Use Public Preview”至顶网(2026-06-25). “Gemini 3.5 Flash正式推出内置电脑操作功能”IC.Work(2026-06-25). “Gemini 3.5 Flash内置computer useGoogle的Agent进化路线图”Android Headlines(2026-06-25). “Gemini 3.5 Flash Gains Native Computer Use Tool”AITOP100(2026-06-25). “每日AI资讯Gemini 3.5 Flash内置电脑操作能力”Browserbase(2026-06-24). “Gemini Computer Use Demo Environment”

相关新闻

嵌入式GUI窗口管理器:消息驱动、坐标系统与触摸交互实战

嵌入式GUI窗口管理器:消息驱动、坐标系统与触摸交互实战

1. 窗口管理器核心架构与消息驱动模型 在嵌入式GUI开发领域,窗口管理器(Window Manager, 简称WM)扮演着整个用户界面系统的“中枢神经”角色。它远不止于管理窗口的堆叠和显示,更核心的职责是构建一个有序、高效的事件…

2026/6/26 12:59:55阅读更多 →
从零构建结构有限元求解器:核心算法、代码实现与性能优化

从零构建结构有限元求解器:核心算法、代码实现与性能优化

1. 项目概述:从“黑盒”到“白盒”的有限元求解器在工程仿真领域,我们常常会用到各种商业软件,它们功能强大,界面友好,但内部的核心求解过程对我们而言,往往是一个“黑盒”。我们输入模型、材料、载荷和边界…

2026/6/26 12:59:55阅读更多 →
嵌入式GUI字体技术:从TrueType原理到emWin API实战

嵌入式GUI字体技术:从TrueType原理到emWin API实战

1. 嵌入式GUI字体技术全景解析:从TrueType到emWin API的深度实践 在嵌入式图形界面开发的世界里,字体渲染从来都不是一个简单的“显示文字”问题。它直接关系到用户体验的细腻程度、产品界面的专业感,以及系统资源的精打细算。回想我早期做车…

2026/6/26 12:59:55阅读更多 →
从映射到分形:Hutchinson算子与迭代函数系统的动力学分析

从映射到分形:Hutchinson算子与迭代函数系统的动力学分析

1. 从“映射”的日常困惑到数学的抽象世界最近在折腾一些技术项目时,频繁地被“映射”这个词绊住。比如,想用Docker部署个服务,结果容器里的端口死活映射不到宿主机上;又或者,在Windows上想挂载个NAS的网络驱动器&…

2026/6/26 14:21:28阅读更多 →
VMware生态断裂预警:vCenter API阉割、Tanzu服务终止、Horizon云化中断——2024下半年不可逆变革清单

VMware生态断裂预警:vCenter API阉割、Tanzu服务终止、Horizon云化中断——2024下半年不可逆变革清单

更多请点击: https://intelliparadigm.com 第一章:VMware生态断裂的宏观背景与战略动因 全球云计算格局正经历结构性重塑,传统虚拟化主导的IT基础设施范式加速让位于云原生、混合多云与软硬协同的新秩序。VMware作为vSphere时代的核心构建者…

2026/6/26 14:21:28阅读更多 →
GitHub下载加速10倍:3步解锁极速开发体验

GitHub下载加速10倍:3步解锁极速开发体验

GitHub下载加速10倍:3步解锁极速开发体验 【免费下载链接】Fast-GitHub 国内Github下载很慢,用上了这个插件后,下载速度嗖嗖嗖的~! 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 对于国内开发者而言&#xff…

2026/6/26 14:21:28阅读更多 →
如何在《鸣潮》中实现智能自动化?揭秘ok-ww的5大核心技术突破

如何在《鸣潮》中实现智能自动化?揭秘ok-ww的5大核心技术突破

如何在《鸣潮》中实现智能自动化?揭秘ok-ww的5大核心技术突破 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 你是否厌…

2026/6/26 14:21:28阅读更多 →
网盘下载新体验:告别限速困扰,一键获取八大平台直链

网盘下载新体验:告别限速困扰,一键获取八大平台直链

网盘下载新体验:告别限速困扰,一键获取八大平台直链 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云…

2026/6/26 14:21:28阅读更多 →
VMware个人免费许可真相(2024年官方政策深度解密):哪些功能被悄悄阉割?哪些场景已违规?

VMware个人免费许可真相(2024年官方政策深度解密):哪些功能被悄悄阉割?哪些场景已违规?

更多请点击: https://intelliparadigm.com 第一章:VMware个人免费许可的官方定义与适用边界 VMware Workstation Player 自 2020 年起终止对个人用户的免费授权,但 VMware 官方仍为符合条件的个人开发者提供明确的免费使用路径——即通过 V…

2026/6/26 14:16:27阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 4:15:25阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →