GUI-Agent阶跃星辰GUI-MCP执行层是何意?

摘要:【GUI-Agent】阶跃星辰 GUI-MCP 解读 (3) 执行层 目录【GUI-Agent】阶跃星辰 GUI-MCP 解读 (3) 执行层0x00 摘要0x01 执行流程1.1 任务总体流程1.2 抽象到设备原生操作映射机制参数映射流程
【GUI-Agent】阶跃星辰 GUI-MCP 解读---(3)---执行层 目录【GUI-Agent】阶跃星辰 GUI-MCP 解读---(3)---执行层0x00 摘要0x01 执行流程1.1 任务总体流程1.2 抽象到设备原生操作映射机制参数映射流程坐标系统映射动作空间映射1.3 原生操作执行0x02 执行层2.1 act_on_device2.2 act_on_device @ pu_frontend_executor.py核心执行流程坐标适配子流程(以 CLICK 为例)文本输入子流程代码2.3 act_on_device @ mobile_action_helper整体执行流程坐标转换子流程(通用)应用唤醒子流程代码调用model_act2front_actmodel_act2front_act VS step_api_to_frontend_action0x03 跨平台实现与统一适配层3.1 跨平台实现机制ADB 统一接口层平台特定处理设备管理跨平台支持3.2 统一适配层设计前端执行器适配层设备辅助适配层屏幕方向适配3.3 跨平台依赖管理依赖抽象层文件路径处理0xFF 参考 0x00 摘要 25年底,阶跃星辰升级发布了全新的AI Agent系列模型Step-GUI,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议:GUI-MCP(Graphical User Interface - Model Context Protocol),这是首个专为图形用户界面自动化而设计的 MCP 实现,兼顾标准化与隐私保护。因此,我们就来解读这个MCP协议,顺便看看端侧Agent的实现架构。 本文是第三篇,主要是介绍Step-GUI的执行层,本层在任何情况下(是/非MCP)都会用到。 因为是反推解读,而且时间有限,所以可能会有各种错误,还请大家不吝指出。 0x01 执行流程 实际上,执行层的底层部分和非MCP是一致的,我们在此是为了梳理流程。 1.1 任务总体流程 我们首先要看看任务的执行流程,了解执行层所在的位置。 任务总体流程如下: 任务处理流程 任务接收:通过 MCP 工具接收任务请求 参数验证:验证设备 ID、任务描述等参数 会话创建:创建或恢复任务会话 代理执行循环,即用 gui_agent_loop 函数处理抽象任务到具体操作的映射 状态感知:通过截图获取设备状态 动作决策: 通过 automate_step 方法获取 AI 模型的决策 通过 LLM 生成动作,即使用ask_llm_anything 函数执行模型推理 模型决策解析:将动作转换为设备操作 动作解析:parser.str2action 将模型输出转换为结构化动作 动作转换:uiTars_to_frontend_action 将模型动作转换为前端动作 动作执行 状态更新:更新任务执行状态 1.2 抽象到设备原生操作映射机制 执行操作时,需要把抽象参数映射到设备原生参数。
阅读全文