GUI-MCP整体架构是阶跃星辰GUI-Agent的哪个阶段?
摘要:【GUI-Agent】阶跃星辰 GUI-MCP 解读 (4) GUI-MCP 整体架构 目录【GUI-Agent】阶跃星辰 GUI-MCP 解读 (4) GUI-MCP 整体架构0x00 摘要0x01 GUI-MCP1.1 MCP1.2 需
【GUI-Agent】阶跃星辰 GUI-MCP 解读---(4)---GUI-MCP 整体架构
目录【GUI-Agent】阶跃星辰 GUI-MCP 解读---(4)---GUI-MCP 整体架构0x00 摘要0x01 GUI-MCP1.1 MCP1.2 需求1.3 差异化优势0x02 示例0x03 差异0x04 GUI-MCP 整体架构4.1 LLM 与 MCP 的交互模式4.2 stepFunc GUI-MCP 的模式4.3 系统架构层次4.4 数据流程图整体数据流详细数据流转数据转换过程特殊处理流程0x05 实现5.1 关键数据结构5.2 函数职责和层级关系5.3 模型分发5.3.1 项目架构层面的模型分发支持模型配置分离模型调用接口统一5.3.2 功能模块层面的模型分发实现图像处理模型任务规划模型5.3.3 配置文件中的模型分发支持多模型配置灵活模型选择豆包手机的模型使用5.4 会话状态管理5.5 参数验证机制5.5.1 输入验证5.5.2 任务验证5.5.3 操作执行约束0xFF 参考
0x00 摘要
25年底,阶跃星辰升级发布了全新的AI Agent系列模型Step-GUI,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议:GUI-MCP(Graphical User Interface - Model Context Protocol),这是首个专为图形用户界面自动化而设计的 MCP 实现,兼顾标准化与隐私保护。因此,我们就来解读这个MCP协议,顺便看看端侧Agent的实现架构。
本文是第四篇,主要是介绍GUI-MCP 整体架构。
因为是反推解读,而且时间有限,所以可能会有各种错误,还请大家不吝指出。
0x01 GUI-MCP
1.1 MCP
在Function Calling的框架下,每个既有系统都需要单独集成到应用中。每个组织或公司都有自己的API、认证方式、数据格式,开发者需要为每个组织或公司编写对应的函数实现。这就是MCP产生的原因:提供一个服务,可以让既有系统快速集成到LLM中。
MCP(Model Context Protocol)是一种用于规范大模型与外部能力交互方式的协议。如果说 Tools 解决的是“模型如何调用一个函数”,那么 MCP 解决的是“模型如何与一个长期存在、可复用的能力服务交互”。
MCP的核心是解决与既有系统的接驳问题,MCP的价值在于它提供了一套标准化的接驳协议,让不同的工具和数据源能够以统一的方式被LLM使用。本质上,MCP更偏重是一套接驳标准(只是在Function Calling的基础上,增加了一层JSON-RPC协议转换),而不是唯一的接驳方式。
或者说,MCP 更像是 API,Agent 只关心提交什么「参数」、得到什么「结果」。
1.2 需求
尽管大语言模型进展显著,其在 GUI 自动化中的应用仍因缺乏跨平台设备控制的标准化接口而受阻。现有方案往往平台限定,且与不同语言模型及设备集成需大量工程投入。一个强大的GUI模型训练出来后,如何让各种大模型都能方便、安全地使用它来控制设备?
为弥补这一缺口,StepFun团队借鉴了“模型上下文协议(MCP)”的思想,提出了 GUI-MCP(Graphical User Interface - Model Context Protocol),这是首个专为 GUI 操作任务设计的 MCP 实现。它像一个翻译器和安全过滤器,标准化了LLM与设备间的交互。
GUI-MCP 提供标准化工具包,无缝连接多种语言模型与多设备平台(Ubuntu、macOS、Windows、Android、iOS),使语言模型能通过统一协议控制移动与桌面设备,执行 GUI 操作任务。
