代理回路里发生什么
一句话进去,十几次工具调用出来
代理先把思路讲一遍,再分发 OCR、点击、截图 —— 直到目标达成,每一次调用都进审计。
chat / claude-sonnet-4 运行中
U
把微信营销群里最新的一条未读消息找出来,给我总结一下。
AI
我先把微信拉到前台,扫一下会话列表,定位「营销」群再看未读标记。
launch_app
bundle_id: "com.tencent.xin"
→ ok
find_text_on_screen
text: "营销"
→ match at (210, 384)
tap_by_text
text: "营销"
describe_screen
→ { "unread": "下午 3 点 Q3 规划评审..." }
AI
最新的一条是今天下午 3 点 Q3 规划评审的会议提醒,不需要你回。
架构
从编辑器到真机的整条链路
MCP 客户端走 stdio,桥转成签名 HTTPS,控制台再通过反向隧道分发 —— 整条 4 跳压在 200ms 内。
architecture
MCP 客户端 Claude / GPT / 任意大模型
│
│ tool-call
▼
agentfy-mcp-server ← 40+ 设备工具
│
│ HTTPS + X-API-Key
▼
app.agentfy.io ← 按租户隔离、审计可追
│
│ 反向隧道
▼
真 iPhone ← 1 台,或 100 台
工具数量
40+
回环延迟
< 200ms
租户隔离
isolated
上手耗时
60 秒
工具栈
40+ 工具,全是一级公民 MCP 调用
代理能调的,你写脚本也能调 —— 代理只是其中最通用的使用者。
设备输入
代理在屏幕上能做的事
tap tap_by_text swipe long_press text press_home press_lock 屏幕感知
代理能看见的东西
screenshot describe_screen find_text_on_screen find_element_on_screen ocr App 控制
起停 + deep link
launch_app terminate_app get_foreground_app open_url list_apps 子代理 + AI
把边角丢给子代理
ai_takeover ai_solve_captcha ai_extract ai_classify 网络与状态
和外部世界对话
http extract jsonpath set log Vault + 剪贴板
密钥与主机 IO
${vault.X} read_clipboard write_clipboard paste_to_phone