· AI工具 · HTML
ego-lite 深度解读 - 当 AI Agent 拥有浏览器
ego-lite 深度解读:为人类和 AI Agent 共同设计的 Chromium 浏览器,如何让 Agent 直接操作需要登录的网页应用,突破 API 自动化边界。
ego-lite: 当 AI Agent 拥有浏览器
一款为人类和 AI Agent 共同设计的桌面浏览器。Agent 继承你的登录态,在独立 Space 中运行,让任何需要身份认证的网页应用都能被自动化。
背景:AI Agent 自动化的最后一公里
2026 年被称为 "AI Agent 元年"。大语言模型从"能对话"进化到"能自主完成复杂任务",但一个长期存在的瓶颈逐渐显现:大多数真实世界的工具都锁在登录墙后面。
CRM 系统、邮箱、SaaS 后台、社交媒体管理面板……这些日常工作的核心场景,几乎都依赖身份认证。传统的 RPA 或 API 集成方案要么需要复杂的权限配置,要么根本无法覆盖那些没有开放 API 的系统。
ego-lite 由 Citro Labs 开发,提供了一种新路径:不是让 Agent 去对接 API,而是让 Agent 直接像你一样使用浏览器。
传统方案面临的四个核心问题
API 覆盖不足
大量 SaaS 工具不开放 API,或仅开放有限接口。Agent 无法触及这些系统的核心功能。
认证配置复杂
OAuth、API Key、Session Token……每个系统的认证方式不同,集成成本极高。
RPA 脆弱易碎
传统 RPA 依赖 CSS 选择器或 XPath,页面结构一变就失效,维护成本居高不下。
人机互相干扰
Agent 操作浏览器时会弹出窗口、切换标签页,打断用户正在进行的工作。
产品架构:双轨并行设计
ego-lite 的核心设计是将人类浏览和 Agent 自动化融合在同一个 Chromium 实例中,通过 Space 隔离机制实现互不干扰的并行运行。
ego-lite 将人类浏览与 Agent 自动化融合在同一 Chromium 实例中,通过 Space 隔离和 Skill 层实现协作
核心能力
-
会话继承
一键迁移 Chrome 的登录状态、Cookies、扩展和配置文件。Agent 直接使用你的身份,无需单独配置认证。
-
Space 隔离
Agent 在独立 Space 中运行,不会弹出窗口或劫持你的标签页。蓝光 Space 标识 Agent 工作区,人机并行互不干扰。
-
语义快照 (Snapshot)
将页面 DOM 压缩为结构化 JSON,token 消耗远低于原始 HTML。通过 refs 和 loc= 选择器精准定位元素,不受 CSS 类名轮换影响。
-
Skill 自动注入
首次启动自动扫描本机 Agent(Claude Code、Codex、Cursor 等 9+ 种),将 ego-browser skill 写入对应 skill 目录,开箱即用。
-
完整 Chrome 兼容
基于 Chromium 内核,扩展、历史记录、登录状态全部迁移。你不需要改变任何浏览习惯。
Space 机制工作流
Space 是 ego-lite 的核心创新。它让"人做事"和"Agent 做事"可以并行发生,而不是互相打断。
Agent 在独立 Space 中执行任务,仅在需要登录验证或最终确认时请求人类介入
对比:传统自动化 vs ego-lite
与 Playwright、Puppeteer、Selenium 等传统浏览器自动化框架相比,ego-lite 的定位完全不同。
| 维度 | Playwright / Puppeteer | 传统 RPA | ego-lite |
|---|---|---|---|
| 目标用户 | 开发者 / QA 工程师 | 业务流程分析师 | AI Agent + 个人用户 |
| 登录态复用 | 需要手动配置 | 部分支持 | 一键继承 |
| 元素定位 | CSS / XPath | 图像识别 / XPath | 语义快照 + refs |
| 人机并行 | 独占浏览器 | 独占桌面 | Space 隔离 |
| API 依赖 | 需要编写脚本 | 需要流程编排 | 自然语言指令 |
| 跨系统认证 | 每个系统单独配 | 每个系统单独配 | 统一继承 |
| 维护成本 | 页面变化即失效 | 流程变化即失效 | Agent 自适应 |
| 学习曲线 | 需编程能力 | 需培训 | 自然语言 |
注:Playwright 和 Puppeteer 是优秀的开发者工具,ego-lite 并非它们的替代品,而是面向不同场景的互补方案。传统框架适合精确控制的自动化测试,ego-lite 适合 Agent 驱动的开放式网页操作。
应用场景
一旦 AI Agent 能操作浏览器,自动化的可能性就大幅扩展。以下是 ego-lite 官方展示的六大核心场景。
社交媒体
X、LinkedIn、Threads、Reddit、Instagram、Facebook。回复推文、排期发布、抓取互动数据。
求职招聘
LinkedIn、Wellfound、YC、ATS 系统。搜索职位、上传简历、填写申请,提交前等你确认。
房产金融购物
Redfin、Zillow 过滤房源,Amazon 比价,Costco 批量下单。计算器 + 结构化数据导出。
预订流程
机票、酒店、餐厅。自动填表直到支付页面停下,保持对付款的控制权。
SaaS 后台
HubSpot、Salesforce、Stripe、GA4……拉报告、刷新仪表盘、批量更新字段。
内部工具
管理后台、预发布环境、QA 流程。继承真实登录态,绕过其他框架无法突破的登录墙。
支持的 AI Agent 生态
ego-lite 首次启动时自动扫描本机安装的 Agent,并注入 ego-browser skill。目前已支持 9+ 种主流 Agent。
ego-lite 自动检测本机安装的 Agent,注入 ego-browser skill 实现即插即用
技术实现
ego-lite 的技术架构分为三层:底层 Chromium 引擎、中间 Skill/CDP 桥接层、上层 Agent 指令层。
三层架构:Agent 通过自然语言驱动 Skill 层,Skill 层通过 CDP 协议控制 Chromium 引擎
多维度评分
基于产品特性、文档完整度、实际使用场景的综合评估。
* 评分基于公开文档和产品特性推算,执行稳定性受页面复杂度影响较大
局限与不足
ego-lite 解决了一个真实痛点,但也有明显的边界。以下场景不建议依赖它:
- 高频重复任务 基于视觉界面的操作不如 API 稳定高效。如果你需要每天精确执行同一流程 100 次,传统脚本 + API 仍然是更好的选择。
- 页面结构剧变 虽然语义快照比 CSS 选择器更健壮,但目标网站的重大改版(如全新的交互流程)仍可能导致 Agent 误判或操作失败。
- 敏感金融操作 涉及大额转账、合同签署等不可逆操作时,建议始终保持人工监督。Agent 可能在极端情况下做出非预期操作。
- 跨平台限制 目前仅提供 macOS DMG 安装包,Windows 和 Linux 用户暂不可用。
- 生态早期 项目仍处于早期阶段,社区规模和第三方集成有限。遇到问题时,支持渠道主要依赖 Discord 社区。
常见问题
ego-lite 和 Chrome 有什么区别?
ego-lite 基于 Chromium 内核,日常浏览体验与 Chrome 几乎一致。核心区别在于它内置了 ego-browser skill 层和 Space 隔离机制,让 AI Agent 能在独立环境中操作浏览器,而不干扰你的正常使用。
我的数据安全吗?
ego-lite 强调本地隐私,所有个人信息(登录态、Cookies、历史)保留在本地设备。Agent 的操作在你的机器上运行,不经过云端中转。但你仍需信任 Agent 本身的行为不会泄露敏感信息。
支持哪些 AI Agent?
目前已支持 Claude Code、OpenAI Codex、Cursor、Gemini CLI、Kiro、Hermes、OpenCode、Continue、OpenClaw 等 9+ 种 Agent。首次启动时自动检测并注入 skill。
需要付费吗?
ego-lite 完全免费,无需订阅。你只需要有自己的 AI Agent(大多数也提供免费额度)。
和 Playwright / Puppeteer 是什么关系?
ego-lite 底层使用 CDP(Chrome DevTools Protocol)与 Chromium 通信,与 Puppeteer 同源。但 ego-lite 不是开发框架,而是面向终端用户的浏览器产品。Playwright/Puppeteer 是开发者工具,ego-lite 是 Agent 的运行环境,两者互补而非替代。