· AI工具 · 9 min read

当 AI Agent 拥有浏览器:ego-lite 如何让自动化突破 API 边界

介绍 ego-lite——一款为人类和 AI Agent 共同设计的 Chromium 浏览器,让 Codex、Claude Code 等 Agent 能直接操作需要登录的网页应用。

当我们谈论 AI Agent 的自动化能力时,一个长期存在的瓶颈逐渐显现:大多数真实世界的工具都锁在登录墙后面

CRM 系统、邮箱、SaaS 后台、社交媒体管理面板……这些日常工作的核心场景,几乎都依赖身份认证。传统的 RPA 或 API 集成方案要么需要复杂的权限配置,要么根本无法覆盖那些没有开放 API 的系统。

ego-lite 提供了一种新的思路:让 AI Agent 直接继承你的浏览器会话

ego-lite 是什么

ego-lite 是一款基于 Chromium 的桌面浏览器,但它的设计目标不仅是给人用——它同时为 AI Agent 优化。

核心特性包括:

  • 完整的 Chrome 兼容性:扩展、历史记录、登录状态全部迁移,无需改变使用习惯
  • Agent 原生支持:首次启动时自动扫描本机安装的 Agent(Codex、Claude Code 等),并注入 ego-browser skill
  • Space 隔离机制:AI Agent 在独立的 Space 中运行,不会干扰你正在浏览的页面
  • 会话继承:Agent 直接使用你的登录态,无需单独配置认证

这意味着,任何你能在浏览器中完成的操作——填写表单、点击按钮、读取页面内容——AI Agent 都可以代你执行。

快速上手:两分钟让 Agent 为你工作

安装

  1. 下载 DMG 并安装到 Applications 文件夹
  2. 首次启动时完成 onboarding 流程
  3. 选择是否迁移现有浏览器数据(推荐:迁移登录状态和扩展)

onboarding 过程中,ego-lite 会自动将 ego-browser skill 安装到 ~/.agents/skills~/.claude/skills/,主流 Agent 开箱即用。

使用

以 Codex 为例,在聊天框中输入:

/ego-browser
请打开 OpenAI 和 Anthropic 的博客页面,查看是否有值得关注的信息,并快速总结最新文章要点。

Agent 会在 ego-lite 中创建一个新的 Space,打开两个博客页面,阅读文章内容,整理最新动态并返回摘要。

权限配置

如果 Agent 有权限设置,建议设为 Full access——因为 ego-lite 需要在本地启动,这要求沙箱外运行权限。

Space 机制:人机协作的关键

ego-lite 的 Space 设计体现了一个重要的产品理念:AI Agent 应该在后台默默工作,只在需要时才介入人类的操作

当你让 Agent 执行任务时,它会在独立的 Space 中运行。你可以:

  • 点击右上角的 Space 按钮查看 Agent 正在做什么
  • 在 Agent 需要登录验证时介入帮助
  • 继续在你当前的标签页工作,互不干扰

发蓝光的 Space 就是 Agent 正在工作的空间。这种设计让「人做事」和「Agent 做事」可以并行发生,而不是互相打断。

应用场景:Agent 能帮你做什么

一旦 AI Agent 能操作浏览器,自动化的可能性就大幅扩展了。

社交媒体运营

支持 X、LinkedIn、Threads、Reddit、Instagram、Facebook 等平台。Agent 可以:

  • 回复推文、引用转发
  • 起草和排期发布内容
  • 抓取互动数据、监控提及
  • 拉取账号活动报告

这些操作大多需要登录状态,而传统 API 往往无法覆盖所有功能。

求职与招聘

在 LinkedIn、Wellfound、YC 等平台搜索职位,过滤条件,点击申请跳转到 ATS 系统(AshbyHQ、Greenhouse、Lever、Workday),上传简历并填写草稿答案——但在最终提交前停下,等你确认

这种「做到最后一步再暂停」的设计,让人类保持对关键决策的控制权。

房产、金融、购物

  • 在 Redfin、Zillow、Apartments.com 按条件过滤房源
  • 运行房贷和可负担性计算器
  • 将结构化数据写入本地 Markdown 文件
  • 在 Amazon 比价、在 Costco 批量下单

预订流程

机票、酒店、餐厅的完整预订流程——自动填写冗长的表单,直到支付页面停下。

SaaS 后台

HubSpot、Salesforce、Notion、Airtable、Linear、Stripe、GA4、Search Console、Mixpanel……这些系统你每天都在用,做的事情却高度重复:拉取报告、刷新仪表盘、批量更新字段、定时发送。

它们很少开放完整的 API,也不是每个人都能写自己的自动化脚本——这正是 ego-lite 的价值所在。

内部工具

你自己的管理后台、预发布环境、QA 流程。那些锁在登录后面、其他自动化框架无法绕过的页面,ego-lite 可以直接继承你日常浏览器的登录状态,堂而皇之地从前门进入。

技术细节

ego-lite 提供了几层技术能力:

  • ego-browser skill:完整的助手指令集,包括页面内的 js() 上下文和原始 CDP(Chrome DevTools Protocol)访问
  • Snapshot 机制:通过 refsloc= 选择器定位页面元素
  • Space 生命周期管理:命名规则、隔离策略、状态切换

详细文档可参考:

思考:浏览器作为 AI Agent 的操作系统

ego-lite 的设计暗示了一个有趣的趋势:浏览器正在从「人用的工具」变成「AI Agent 的操作系统」

当 Agent 能直接操作网页,许多原本需要 API 集成的场景都可以用更轻量的方式解决。不需要写对接代码、不需要申请 API 权限、不需要处理 OAuth 流程——Agent 直接像你一样使用系统。

这种方式的优缺点都很明显:

优势

  • 覆盖面极广,几乎所有 Web 应用都能操作
  • 无需等待 API 开放或权限审批
  • 人类已有的登录态和配置直接复用

局限

  • 依赖视觉界面,不如 API 稳定高效
  • 页面结构变化可能导致脚本失效
  • 涉及敏感操作时,人类的监督仍然不可或缺

ego-lite 的选择是让人类和 Agent 共用同一个浏览器环境,而不是完全分离。这种设计的核心假设是:Agent 需要人类的地方,不是代码接口,而是身份认证和关键决策

总结

ego-lite 解决了一个真实的痛点:让 AI Agent 能操作那些「只有登录后才能用」的系统。它的方案简单直接——继承你的浏览器会话,在独立 Space 中运行,需要时让你介入。

对于日常工作涉及大量 SaaS 工具、社交媒体、内部系统的人来说,这种能力可能比纯粹的 API 自动化更实用。毕竟,现实世界的大多数工具,都锁在登录墙后面。

项目地址:ego-lite 社区:Discord

返回文章

相关文章

查看全部 »