Playwright和Chrome DevTools MCP,哪个更适合我的项目需求?

摘要:如果你想用 AI Agent 来操作浏览器,目前基本绕不开两个最常用 MCP:一个是微软的 @playwrightmcp ,另一个是Google 的 chrome-devtools-mcp。 但你是不是也有这些困惑?&#1
如果你想用 AI Agent 来操作浏览器,目前基本绕不开两个最常用 MCP:一个是微软的 @playwright/mcp ,另一个是Google 的 chrome-devtools-mcp。 但你是不是也有这些困惑?🤔 "MCP 到底是什么鬼?" "Playwright MCP 和 Chrome DevTools MCP 到底有什么区别?" "我该用哪一个?还是两个都要装?" "为什么我的 AI 助手控制浏览器总是出问题?" 如果你有以上任何一个问题,这篇文章就是为你准备的。我发现 90% 的人都在错误地使用它们——不是因为工具不好,而是因为选错了场景。今天把我踩过的坑和总结的经验分享出来,帮你少走弯路。 一、先搞懂:什么是 MCP? MCP (Model Context Protocol) 是 Anthropic 推出的一个开放协议,让 AI 模型(如 Claude)能够安全地连接外部工具和数据源。 简单说: 传统方式:AI → 只能聊天 MCP 方式:AI → 可以操作浏览器、读写文件、调用 API... MCP 的核心价值: 🔌 标准化:统一的接口规范,一次配置到处运行 🔒 安全性:权限可控,操作可审计 🔄 可组合:多个 MCP 服务器可以协同工作 二、Playwright MCP 是什么? @playwright/mcp 是微软 Playwright 团队基于 MCP 协议封装的库,将 Playwright 的跨浏览器自动化能力与 MCP 协议结合。Playwright 本身是一站式的浏览器自动化工具,而这个库是让 Playwright 能通过 MCP 协议和各类 DevTools 后端通信,同时保留 Playwright 上层的易用性封装。 简单来说,Playwright MCP 就是一套由AI 驱动的浏览器自动化引擎。 由 Microsoft 官方维护,基于成熟的 Playwright 框架,通过结构化的无障碍树(Accessibility Tree)而非像素截图来操作网页。 2.1 它的出现,能解决什么问题? 问题 Playwright MCP 的解法 AI 看不懂网页截图 使用结构化的 accessibility tree,不需要视觉模型,不是像素识别,纯结构化数据操作 自动化脚本容易挂 基于语义定位,比 CSS/XPath 更稳定 不同浏览器行为不一 跨浏览器支持 - Chrome、Firefox、WebKit、Edge 全支持 Token 消耗太大 只传结构化数据,不传图片 Playwright MCP 的解题思路是"像用户一样看页面", 它不给 AI 看原始 HTML,而是给一棵可访问性树(Accessibility Tree)。什么 <div class="css-1a2b3c">、什么 data-analytics-id="xxx",全部过滤掉,只留下 AI 真正需要的信息:这是个按钮,叫"提交",可以点击。 这带来两个直接好处:一是 Token 消耗暴降,同一个页面,原始 DOM 可能吃掉 5 万到 10 万 Token,可访问性树只要 2000 到 5000,省了 70% 到 80%; 二是 AI 不容易"看花眼",信噪比高了,推理准确率自然上去了。 另外它还有个杀手锏:Auto-wait(自动等待)。AI 发出"点击"指令后,Playwright 不是立刻就点,而是先确认元素已经加载、可见、位置稳定、没被弹窗挡住,全部满足了才执行。这个机制把"等待"的活从 AI 身上卸下来了,交给了确定性的代码逻辑。
阅读全文