应用场景 / 移动 AI 代理

让大模型操作真 iPhone 的最短路径

不用折腾 XCUITest，不用迁就模拟器各种怪脾气，也不用自己接 JSON-RPC 管道。把 Claude 或 GPT 接进来，给它一个目标，看它怎么做。

免费试用定价

代理回路里发生什么

一句话进去，十几次工具调用出来

代理先把思路讲一遍，再分发 OCR、点击、截图 —— 直到目标达成，每一次调用都进审计。

chat / claude-sonnet-4 运行中

把微信营销群里最新的一条未读消息找出来，给我总结一下。

我先把微信拉到前台，扫一下会话列表，定位「营销」群再看未读标记。

launch_app

bundle_id: "com.tencent.xin"

→ ok

find_text_on_screen

text: "营销"

→ match at (210, 384)

tap_by_text

text: "营销"

describe_screen

→ { "unread": "下午 3 点 Q3 规划评审..." }

最新的一条是今天下午 3 点 Q3 规划评审的会议提醒，不需要你回。

架构

从编辑器到真机的整条链路

MCP 客户端走 stdio，桥转成签名 HTTPS，控制台再通过反向隧道分发 —— 整条 4 跳压在 200ms 内。

architecture

   MCP 客户端      Claude  /  GPT  /  任意大模型
        │
        │   tool-call
        ▼
   agentfy-mcp-server     ← 40+ 设备工具
        │
        │   HTTPS  +  X-API-Key
        ▼
   app.agentfy.io         ← 按租户隔离、审计可追
        │
        │   反向隧道
        ▼
   真 iPhone              ← 1 台，或 100 台

工具数量

40+

回环延迟

< 200ms

租户隔离

isolated

上手耗时

60 秒

工具数量

40+

回环延迟

< 200ms

租户隔离

isolated

上手耗时

60 秒

工具栈

40+ 工具，全是一级公民 MCP 调用

代理能调的，你写脚本也能调 —— 代理只是其中最通用的使用者。

设备输入

代理在屏幕上能做的事

tap tap_by_text swipe long_press text press_home press_lock

屏幕感知

代理能看见的东西

screenshot describe_screen find_text_on_screen find_element_on_screen ocr

App 控制

起停 + deep link

launch_app terminate_app get_foreground_app open_url list_apps

子代理 + AI

把边角丢给子代理

ai_takeover ai_solve_captcha ai_extract ai_classify

网络与状态

和外部世界对话

http extract jsonpath set log

Vault + 剪贴板

密钥与主机 IO

${vault.X} read_clipboard write_clipboard paste_to_phone

搭建用到的功能…

AI 代理

底层代理运行时 —— 工具、系统提示、子代理调度。

了解更多

MCP 服务

也可以接进 Claude Desktop / Cursor，不必用我们的代理面板。

了解更多

宏脚本

用宏跑确定性骨架，AI 接住非结构化片段。

了解更多

带上 Key，带上 iPhone，开始让代理替你干活

所有套餐都支持自带 Key。40+ MCP 工具，60 秒上手。

免费试用