我解放啦,网页终于能自己干活了!阿里 2 万 Star 开源 Page Agent,20 次点击变一句话
嗨我是小华同学专注解锁高效工作与前沿AI工具每日精选开源技术、实战技巧助你省时50%、领先他人一步。免费订阅与10万技术人共享升级秘籍先说结论Page Agent 最值得看的地方不是“AI 能点按钮”而是它把 Agent 直接放进网页里。如果你做过后台系统、SaaS、CRM、ERP 或管理平台就会知道真正劝退用户的往往不是功能少而是按钮太多、路径太深、流程太绕。这篇文章不做源码长拆只用 3 分钟讲清楚它为什么火、和传统浏览器自动化有什么不同、以及你自己的产品能不能借这个思路做 AI Copilot。官方还放了一个 Demo 视频想先看效果的可以打开https://github.com/user-attachments/assets/a1f2eae2-13fb-4aae-98cf-a3fc1620a6c2你有没有发现现在很多 AI Agent 都在“控制浏览器”用截图识别页面用 Playwright 点按钮或者让一个外部自动化程序远程操作网页。但阿里开源的Page Agent换了一个思路不是让 AI 从外面操控浏览器而是让 Agent 直接住进你的网页里。上面这张图就是这篇文章最核心的反差传统浏览器自动化更像“外部脚本控制页面”Page Agent 更像“网页自己长出一个 AI 操作员”。截至 2026-06-27我查到这个项目已经有20.2k Star、1.7k ForkMIT 协议主语言是 TypeScript最新版本是v1.10.0。一句话概括Page Agent 是一个运行在网页里的 GUI Agent可以让用户用自然语言控制 Web 页面。比如你对后台说“帮我把今天新增的客户筛出来导出销售线索。”它要做的事情不是回复一段操作教程而是直接理解页面、点击按钮、填写表单、切换选项把流程跑起来。30 秒看懂它你遇到的问题Page Agent 的思路后台系统按钮太多新人不会用用自然语言直接描述目标一个流程要点 20 次变成一句话执行想给 SaaS 产品加 AI Copilot前端接入 JavaScript不必重写后端不想用截图和多模态模型基于 DOM 文本理解页面想接自己的模型支持自备 LLM想做多页面任务可选 Chrome 扩展和 MCP Server最吸引我的地方不是“它能点按钮”。真正有价值的是它把网页从“只能被人操作的界面”变成了“可以被 AI 理解和执行的工作台”。它和传统浏览器自动化有什么不一样很多人一听“AI 操作网页”第一反应是PlaywrightSeleniumbrowser-use浏览器扩展这些当然都很强但 Page Agent 的定位不完全一样。对比点Page Agent传统浏览器自动化运行位置页面内 JavaScript页面外的脚本或客户端面向对象Web 应用开发者、SaaS 产品测试、爬虫、自动化脚本典型用途给产品加 AI 操作员自动执行任务页面理解DOM 文本和语义结构截图、选择器、浏览器控制集成方式CDN / npm 接入单独启动自动化环境简单说它更像是给你的 Web 产品加一个“内置 AI 操作员”而不是写一个外部机器人。这对 B 端系统尤其有想象力。ERP、CRM、管理后台、数据平台、客服后台很多产品不是功能不够而是路径太深、表单太多、操作太绕。如果用户能直接说目标系统自己完成一串点击和填写这就是非常典型的 AI Copilot 场景。它主要能做什么Page Agent 官方给的几个应用场景我觉得都挺实用场景可以怎么用SaaS AI Copilot给现有产品加自然语言操作入口智能表单填写把复杂表单、审批、配置流程自动跑完产品教学让 AI 一边操作一边演示流程无障碍增强用语音或自然语言辅助操作页面多页面 Agent通过扩展跨标签页执行任务MCP 接入让本地 Agent 客户端控制浏览器它的核心特点也比较明确轻集成无需 Python、无头浏览器页面里引入 JS 即可。文本 DOM 操作不截图不依赖多模态模型。自备 LLM可以接 OpenAI-compatible API、Ollama 等模型服务。可扩展有 Chrome 扩展也有 Beta 版 MCP Server。怎么接入最简单的体验方式是直接用 CDNscriptsrc{URL}crossorigintrue/script如果在项目里使用可以通过 npmnpminstallpage-agent然后初始化一个 Agentimport{PageAgent}frompage-agentconstagentnewPageAgent({model:qwen3.5-plus,baseURL:https://dashscope.aliyuncs.com/compatible-mode/v1,apiKey:YOUR_API_KEY,language:zh-CN,})awaitagent.execute(点击登录按钮)官方也提醒了免费 Demo LLM 仅用于技术评估长期使用建议配置自己的模型服务。但它不是万能的这点一定要说清楚不然很容易把它理解成“网页自动化银弹”。Page Agent 是基于 DOM 理解页面的所以它更适合语义化较好的 Web 应用。它目前更擅长点击文本输入下拉选择表单提交页面滚动单层同源 iframe可选执行 JavaScript但它不适合这类场景复杂拖拽右键菜单纯视觉识别Canvas / WebGL / 图片内容理解跨域 iframeMonaco、CodeMirror 这类复杂编辑器的细粒度操作所以我的判断是它不是替代所有浏览器自动化工具而是给“你自己控制的 Web 产品”增加 AI 操作能力。这个定位反而更清晰也更适合落地。为什么值得关注我觉得 Page Agent 值得技术人关注原因有三个。第一它站在了一个非常热的方向上AI Agent 浏览器操作 MCP SaaS Copilot。第二它选了一个很巧的切入点不从外部控制浏览器而是让 Web 应用自己拥有 Agent 能力。第三它已经不是概念项目GitHub 2 万 Star、npm 版本到1.10.0、文档里有扩展、MCP、数据脱敏、自定义工具等工程化能力。如果你正在做后台系统、低代码平台、CRM、ERP、数据分析平台或者想给自己的产品加一个 AI 操作入口这个项目非常值得看看。最后以前我们总说AI 会帮用户看懂页面。但 Page Agent 给我的感觉是下一步网页本身就要开始听懂人话了。这才是它真正有意思的地方。后面我准备继续拆它的源码结构包括 DOM 是怎么“脱水”给 LLM 的、Page Agent 和 browser-use 的关系、MCP Server 怎么接本地 Agent。感兴趣的话可以先收藏这篇。项目地址GitHubhttps://github.com/alibaba/page-agentDemohttps://alibaba.github.io/page-agent/文档https://alibaba.github.io/page-agent/docs/introduction/overviewHN 讨论https://news.ycombinator.com/item?id47264138

相关新闻

JetBrains学生认证失效预警(2024年秋季学期实测数据曝光):3类高危操作导致自动取消

JetBrains学生认证失效预警(2024年秋季学期实测数据曝光):3类高危操作导致自动取消

更多请点击: https://kaifayun.com 第一章:JetBrains学生认证失效预警(2024年秋季学期实测数据曝光):3类高危操作导致自动取消 2024年秋季学期,大量高校学生反馈 JetBrains 学生许可证在未主动续期或变更信…

2026/6/28 17:34:40阅读更多 →
免费录屏的操作步骤

免费录屏的操作步骤

孩子幼儿园,各种儿歌比赛,我们选择一个儿歌,有时候下载需要会员,有的还需要花钱,虽然我也提倡知识付费,但是有免费的为啥不用呢? 不用下载其他应用或者app,直接使用ppt的录屏就可以。…

2026/6/28 17:34:40阅读更多 →
3步轻松解决老Mac升级难题:OpenCore Legacy Patcher终极指南

3步轻松解决老Mac升级难题:OpenCore Legacy Patcher终极指南

3步轻松解决老Mac升级难题:OpenCore Legacy Patcher终极指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否还在为手中的老款Mac无法升级到…

2026/6/28 17:34:40阅读更多 →
Chromedp 实战:隐匿自动化痕迹的进阶配置指南

Chromedp 实战:隐匿自动化痕迹的进阶配置指南

1. 为什么需要隐匿自动化痕迹? 用Chromedp做数据采集的朋友应该都遇到过这样的问题:明明代码写得没问题,目标网站却总是返回异常数据,甚至直接封禁IP。这背后其实是网站的反爬机制在起作用——它们会通过检测浏览器特征来判断访问…

2026/6/28 18:49:59阅读更多 →
瑞萨RA MCU调试实战:软件断点、跟踪功能与安全低功耗场景解析

瑞萨RA MCU调试实战:软件断点、跟踪功能与安全低功耗场景解析

1. 项目概述 调试,对于每一位嵌入式开发者而言,都像是程序员的“听诊器”和“手术刀”。它能让我们深入MCU内部,观察指令流、数据变化和寄存器状态,是定位那些“时隐时现”的Bug、优化程序逻辑、验证硬件设计的核心手段。瑞萨电子…

2026/6/28 18:49:59阅读更多 →
Qt图形视图框架:QGraphicsScene事件分发与交互机制深度剖析

Qt图形视图框架:QGraphicsScene事件分发与交互机制深度剖析

1. QGraphicsScene事件分发机制揭秘 QGraphicsScene作为Qt图形视图框架的核心组件,其事件分发机制就像交响乐团的指挥家。想象一下,当你在触摸屏上滑动手指时,这个动作会经过视图(QGraphicsView)传递给场景&#xff08…

2026/6/28 18:49:59阅读更多 →
日常成套护肤 美葆林全套护肤礼盒分享

日常成套护肤 美葆林全套护肤礼盒分享

长期使用成套护肤产品,更易维持稳定的护肤体验,今日分享来自山东庆葆堂的美葆林紧致抗皱护肤套盒,一套五件,构建完整日常护肤步骤。 全套单品分为氨基酸山茶洁面慕斯、柔肤水、精华液、精粹乳、面霜,各单品容量规划合理…

2026/6/28 18:49:59阅读更多 →
ucore操作系统实验:3种高效入门方法助你快速上手清华大学OS内核实验

ucore操作系统实验:3种高效入门方法助你快速上手清华大学OS内核实验

ucore操作系统实验:3种高效入门方法助你快速上手清华大学OS内核实验 【免费下载链接】ucore 清华大学操作系统课程实验 (OS Kernel Labs) 项目地址: https://gitcode.com/gh_mirrors/uc/ucore ucore操作系统实验是清华大学计算机系操作系统课程的核心教学项目…

2026/6/28 18:49:59阅读更多 →
轻量化语义分割新范式:LR-ASPP如何重塑移动端实时分割体验

轻量化语义分割新范式:LR-ASPP如何重塑移动端实时分割体验

1. 移动端语义分割的挑战与机遇 手机摄像头拍出的照片想要实时区分天空、建筑、行人?这在五年前还是天方夜谭。如今搭载LR-ASPP的MobileNetV3却能以30帧/秒的速度在千元机上完成精准分割。这种突破源于对移动端三大痛点的精准打击:内存占用高&#xff0…

2026/6/28 18:44:58阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →