Agentfy
免费试用
应用场景 / 移动 AI 代理

让大模型操作真 iPhone 的最短路径

不用折腾 XCUITest,不用迁就模拟器各种怪脾气,也不用自己接 JSON-RPC 管道。把 Claude 或 GPT 接进来,给它一个目标,看它怎么做。

大模型操作 iOS 演示
大模型操作 iOS 演示
代理回路里发生什么

一句话进去,十几次工具调用出来

代理先把思路讲一遍,再分发 OCR、点击、截图 —— 直到目标达成,每一次调用都进审计。

chat / claude-sonnet-4 运行中
U
把微信营销群里最新的一条未读消息找出来,给我总结一下。
AI
我先把微信拉到前台,扫一下会话列表,定位「营销」群再看未读标记。
launch_app
bundle_id: "com.tencent.xin"
→ ok
find_text_on_screen
text: "营销"
→ match at (210, 384)
tap_by_text
text: "营销"
describe_screen
→ { "unread": "下午 3 点 Q3 规划评审..." }
AI
最新的一条是今天下午 3 点 Q3 规划评审的会议提醒,不需要你回。
架构

从编辑器到真机的整条链路

MCP 客户端走 stdio,桥转成签名 HTTPS,控制台再通过反向隧道分发 —— 整条 4 跳压在 200ms 内。

architecture
   MCP 客户端      Claude  /  GPT  /  任意大模型
        │
        │   tool-call
        ▼
   agentfy-mcp-server     ← 40+ 设备工具
        │
        │   HTTPS  +  X-API-Key
        ▼
   app.agentfy.io         ← 按租户隔离、审计可追
        │
        │   反向隧道
        ▼
   真 iPhone              ← 1 台,或 100 台

        
工具数量
40+
回环延迟
< 200ms
租户隔离
isolated
上手耗时
60 秒
工具栈

40+ 工具,全是一级公民 MCP 调用

代理能调的,你写脚本也能调 —— 代理只是其中最通用的使用者。

设备输入

代理在屏幕上能做的事
tap tap_by_text swipe long_press text press_home press_lock

屏幕感知

代理能看见的东西
screenshot describe_screen find_text_on_screen find_element_on_screen ocr

App 控制

起停 + deep link
launch_app terminate_app get_foreground_app open_url list_apps

子代理 + AI

把边角丢给子代理
ai_takeover ai_solve_captcha ai_extract ai_classify

网络与状态

和外部世界对话
http extract jsonpath set log

Vault + 剪贴板

密钥与主机 IO
${vault.X} read_clipboard write_clipboard paste_to_phone

搭建用到的功能…

带上 Key,带上 iPhone,开始让代理替你干活

所有套餐都支持自带 Key。40+ MCP 工具,60 秒上手。

免费试用