当然可以!我们可以一起探讨各种有趣的话题,比如科技发展、文化知识、日常生活技巧等。请告诉我你感兴趣的具体方向或者问题,我会尽力提供帮助和相关信息。让我们一起探索和创造吧!

摘要:本文不输出权威指南,只是一位一线算法工程师和AI不算peace的合作场景还原。系列第一篇,我们将从最基础的“磨合期”开始聊起。
技术标签:#opencode,#browser-use,#单智能体,#Agents.md
开篇避雷: 本文不输出权威指南,只是一位一线算法工程师和AI不算peace的合作场景还原。系列第一篇,我们将从最基础的“磨合期”开始聊起。 本周的小目标:用 OpenCode基于browser-use 框架,写一个能自动跑去DeepSeek网站点开搜索模式,输入query批量提问,并把答案和网页抓取下来的自动化脚本。 (免责声明:本文纯作技术探讨) 可解锁技能点:opencode,browser-use, 效果如下,代码详见crawl_deepseek 和AI组队中 1. 战前准备:技术预研&撰写PRD 上个时代开发软件,我们要给人类同事写 PRD(需求文档);这个时代,你合作的对象是 AI,你同样得给它写说明书。 在简单的单智能体(Agent)工作中,本质上只有三种信息在流动: System Message(静态指令):永远悬在它脑门上的最高法则。 User Message(用户指令):你随时随地的补充和吐槽。 Tool Message(动态指令):它用工具查出来的数据。 因为是完全基于browser-use开发,因此我需要模型持久化记忆这个AI工具库的使用说明,所以首先要提供的就是 《Browser-USe AGENTS.md》(Browser-use官方给的武功秘籍) 现在很多优秀的开源项目都会提供 AGENTS.md。它的本质,就是把原本写给人类看的花里胡哨的,层次复杂的网页说明书,“展平”并结构化成写给机器看的 API 手册。因为我们这次完全基于 browser-use 开发,直接把这本秘籍塞进它的上下文里,它就知道怎么操控浏览器了。 因为项目目标其实会需要反复调整,因此我把初期我能想到的项目相关的信息写入了 《Project.md》。里面包含了: 项目目标:我们要干啥。 代码规范:用 Python 几?语言风格是什么? 测试与日志规范(极其重要!):最开始我只写了简单的目录要求,后续在合作过程中我重点补充了这两个部分,不要急,接着往后看。 2. 和AI对需求 准备好目标和参考资料后,我开了 /plan模式,开始和AI对需求 这个模式下,AI只思考、不写代码。我让它: 先理解任务 找到任务中描述不清晰,存在疑问的点并向我提问 把澄清后的细节补充回Project.md 这一步很重要——让AI先把问题问出来,比让它闷头写然后全部重来,效率高太多。最后反复优化后的project.md很长很长 3. 血压飙升时刻:我被迫夺过方向盘的4个瞬间 我乐观的认为接下来就是我的"tea time",那属实是我太天真了。以下是我和这位“盲目自信的实习生”搏斗的真实记录。 🥊 第一回合:拒绝瞎猜,日志才是唯一真理 案发现场:在使用多模态模型识别网页时,AI 没找到网页加载完成的标志,陷入了无限等待的死循环。 AI的反应:它立刻基于它庞大的预训练知识库,给出了无数种(根本不对的)后端网络超时的猜测,疯狂改代码,修了半天把原本正常的代码改成了屎山。 我的铁腕干预: “停!保留证据链!把 browser-use 推理的中间过程全部用日志打出来!没有日志不准排查问题!” 感悟:AI 极度依赖上下文。如果不给它日志反馈,它就会启动“幻觉瞎猜”模式。 🥊 第二回合:遇到问题打补丁?达咩! 案发现场:它从网页里提取答案的逻辑写错了,抓出了一堆乱码。 AI的反应:它没有去改提取逻辑,而是写了一长串极其复杂的正则后处理代码,试图把乱码“洗”干净。 我的铁腕干预: “第一性原理!永远从源头解决问题,严格禁止打补丁式的后处理!去查为什么提取逻辑不对!” 感悟:AI 可能从 Github 庞大的屎山代码库里学到了人类的陋习——遇事不决打补丁。补丁有一个就有一千个,陋习决不允许。 🥊 第三回合:赛博鱼的记忆虽然越来越长但仍不够用! 案发现场:遇到复杂的登录信息处理时,它的代码又开始跑偏了。 AI的反应:试图自己凭空捏造一套浏览器的 Cookie 注入逻辑。 我的铁腕干预: “哥们,答案就在《AGENTS.md》里,Read first then act!(遇到问题先查手册)” 感悟:当对话上下文变得极其冗长时,AI 的注意力(Attention)会涣散。
阅读全文