大模型Agent控制手机——用 `AutoGLM-Phone-9B` 等平替豆包手机 (Phone Use Agent)
本文档介绍
Phone Use Agent场景,即通过Claude Code自动安装AutoGLM,再运行AutoGLM和AutoGLM-Phone-9B来控制操作Android手机。
一 用 Claude Code 安装 AutoGLM
为 Claude Code 配置模型,API 及 Key
# 打开终端窗口,设置以下环境变量
export ANTHROPIC_BASE_URL=https://api.qnaigc.com
export API_TIMEOUT_MS=600000
export ANTHROPIC_MODEL=deepseek/deepseek-v3.2-251201
export ANTHROPIC_SMALL_FAST_MODEL=claude-4.5-haiku
export ANTHROPIC_AUTH_TOKEN=sk-d8d5****b854
让 Claude Code 自动下载和安装 AutoGLM
- 启动
claude
- 拷贝执行以下指令:
访问文档,为我安装 AutoGLM
https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
二 安装 adb 工具和 ADBKeyBoard 包
下载 adb 安装到 电脑
- 用浏览器打开
android开发者网站,根据电脑系统版本下载合适的platform-tools
- 解压后,将目录设置到
PATH环境变量 - 将打开了
开发者选项和USB调试的Android手机接入到电脑USB端口 - 用以下
adb命令查看连接上的手机设备
adb devices
# 显示如下类似内容,至少包括一个device
List of devices attached
113cc13a device
下载 DBKeyBoard 包,安装到 手机
adb install ./ADBKeyboard.apk
adb shell ime enable com.android.adbkeyboard/.AdbIME
三 运行 AutoGLM
配置 AutoGLM-Phone-9B 模型环境
# 以 https://developer.qiniu.com/aitokenapi/12884/how-to-get-api-key 为例,
# 获取 base url 和 apikey
--base-url https://api.qnaigc.com/v1 \
--model "ZhipuAI/AutoGLM-Phone-9B" \
--apikey "sk-********"
检查是否可用 adb 为手机截屏
# 验证下手机上可保存截图的目录
adb shell screencap -p /storage/Download/tmp.png
# 编辑修改 `phone_agent/adb/screenshot.py` 对应的第 46 & 59 行图片目录
# 再适当调大 `main.py` 中的 `timeout` 设置(包括OpenAI接口和adb调用)
执行以下命令
cd Open-AutoGLM
python3 main.py --base-url https://api.qnaigc.com/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "sk-********" "打开相册"
日志和运行过程
附一:点击展开查看“打开相册”的任务详情
🔍 Checking system requirements...
--------------------------------------------------
1. Checking ADB installation... ✅ OK (Android Debug Bridge version 1.0.41)
2. Checking connected devices... ✅ OK (1 device(s): 113cc13a)
3. Checking ADB Keyboard... ✅ OK
--------------------------------------------------
✅ All system checks passed!
🔍 Checking model API...
--------------------------------------------------
1. Checking API connectivity (https://api.qnaigc.com/v1)... ✅ OK
--------------------------------------------------
✅ Model API checks passed!
==================================================
Phone Agent - AI-powered phone automation
==================================================
Model: ZhipuAI/AutoGLM-Phone-9B
Base URL: https://api.qnaigc.com/v1
Max Steps: 100
Language: cn
Device: 113cc13a (auto-detected)
==================================================
Task: 打开相册
==================================================
💭 思考过程:
--------------------------------------------------
用户要求打开相册。我需要查看当前屏幕上是否有相册应用。
从截图中,我可以看到一个系统桌面,上面有多个应用图标。我需要找到"相册"应用。
在屏幕上,我可以看到:
- 第一行:儿童模式、应用商店、文件夹、视频音乐
- 第二行:工具(有红点通知)、文件夹、Mind Notes、Nextcloud
- 第三行:设置、相册(橙色图标)、Epson iP...、工具
- 第四行:录音机、联系人、微信
我找到了!在第三行有一个橙色图标的应用,下面标注着"相册"。这个应用的位置大约在屏幕中间偏左的位置。
让我点击这个相册应用。根据截图,它的位置大约在坐标 (383, 377) 附近。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 9.578s
思考完成延迟: 12.232s
总推理时间: 12.714s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Tap",
"element": [
383,
377
]
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
太好了!相册应用已经成功打开。我可以看到:
1. 顶部显示"相册"标题
2. 有几个主要分类:
- 全部项目 (368)
- 相机 (64)
- 视频 (32)
- 截屏 (137)
3. 还有"更多相册"部分,显示了多个相册文件夹:
- 微信 (58)
- II·微信 (3)
- Download (3)
- DCIM (43)
- Pictures (27)
- 其他相册 (14)
底部有导航栏:照片、相册、推荐、搜索
任务已经完成,相册应用已成功打开并显示主界面。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 4.079s
思考完成延迟: 9.619s
总推理时间: 11.038s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "finish",
"message": "已成功打开相册应用!现在显示的是相册主界面,可以看到:\n- 全部项目(368个)\n- 相机(64个)\n- 视频(32个)\n- 截屏(137个)\n- 以及更多相册文件夹,包括微信、DCIM、Pictures等\n\n您可以在这里浏览和管理所有的照片和视频。"
}
==================================================
🎉 ================================================
✅ 任务完成: 已成功打开相册应用!现在显示的是相册主界面,可以看到:
- 全部项目(368个)
- 相机(64个)
- 视频(32个)
- 截屏(137个)
- 以及更多相册文件夹,包括微信、DCIM、Pictures等
您可以在这里浏览和管理所有的照片和视频。
==================================================
Result: 已成功打开相册应用!现在显示的是相册主界面,可以看到:
- 全部项目(368个)
- 相机(64个)
- 视频(32个)
- 截屏(137个)
- 以及更多相册文件夹,包括微信、DCIM、Pictures等
您可以在这里浏览和管理所有的照片和视频。
附二:点击展开查看“打开网站”的任务详情
python3 main.py --base-url https://api.qnaigc.com/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "sk-********" "打开Chrome,访问ifeng.com"
🔍 Checking system requirements...
--------------------------------------------------
1. Checking ADB installation... ✅ OK (Android Debug Bridge version 1.0.41)
2. Checking connected devices... ✅ OK (1 device(s): 113cc13a)
3. Checking ADB Keyboard... ✅ OK
--------------------------------------------------
✅ All system checks passed!
🔍 Checking model API...
--------------------------------------------------
1. Checking API connectivity (https://api.qnaigc.com/v1)... ✅ OK
--------------------------------------------------
✅ Model API checks passed!
==================================================
Phone Agent - AI-powered phone automation
==================================================
Model: ZhipuAI/AutoGLM-Phone-9B
Base URL: https://api.qnaigc.com/v1
Max Steps: 100
Language: cn
Device: 113cc13a (auto-detected)
==================================================
Task: 打开Chrome,访问ifeng.com
==================================================
💭 思考过程:
--------------------------------------------------
用户要求打开Chrome,访问ifeng.com。我需要:
1. 先打开Chrome浏览器
2. 然后在浏览器中访问ifeng.com
首先,我需要启动Chrome应用。根据允许的应用列表,"chrome"是允许的应用之一。
当前屏幕显示的是系统桌面,我可以看到各种应用图标。我应该使用Launch功能直接启动Chrome应用。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 6.235s
思考完成延迟: 7.662s
总推理时间: 7.924s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Launch",
"app": "chrome"
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
好的,Chrome已经打开了。我可以看到屏幕上显示"在 百度 中搜索或输入"的提示,说明当前在搜索界面。屏幕大部分是黑色的,可能是在加载中。
我需要等待页面完全加载,然后输入ifeng.com来访问这个网站。让我等待一下页面加载完成。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 1.706s
思考完成延迟: 2.479s
总推理时间: 2.595s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Wait",
"duration": "1 seconds"
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
好的,现在页面加载完成了。我可以看到:
- 顶部有一个搜索框,显示"在 百度 中搜索或输入"
- 下面有一些快捷入口:百度、YouTube、虎扑、Facebook、Git等
- 还有一个"继续使用此标签页"的提示
现在我需要点击顶部的搜索框,然后输入"ifeng.com"来访问这个网站。让我点击搜索框。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 3.570s
思考完成延迟: 4.964s
总推理时间: 5.143s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Tap",
"element": [
499,
62
]
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
好的,现在键盘已经弹出来了。我可以看到:
- 顶部搜索框现在显示"在 百度 中搜索或输入网址"
- 底部出现了键盘
- 有一个绿色的发送按钮在右下角
现在我需要在搜索框中输入"ifeng.com"。我应该点击搜索框,然后使用Type功能输入文字。让我先点击搜索框确保它获得焦点。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 2.068s
思考完成延迟: 3.415s
总推理时间: 3.607s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Type",
"text": "ifeng.com"
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
太好了!我已经成功输入了"ifeng.com",现在可以看到:
- 顶部搜索框显示"ifeng.com"
- 下面出现了搜索建议,包括:
- ifeng.com(两个条目)
- ifeng.com(蓝色链接)
- ifeng.com
- 一个finance.ifeng.com的新闻链接
现在我需要点击其中一个ifeng.com的选项来访问该网站。我可以点击第一个或第二个ifeng.com选项。让我点击第一个。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 3.537s
思考完成延迟: 5.226s
总推理时间: 5.390s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "do",
"action": "Tap",
"element": [
499,
130
]
}
==================================================
==================================================
💭 思考过程:
--------------------------------------------------
完美!我已经成功访问了ifeng.com(凤凰新闻)的网站。现在可以看到:
- 顶部显示地址栏:i.ifeng.com/?ch=i
- 网站logo显示"鳳凰新闻"
- 有各种分类标签:资讯、娱乐、财经、卫视、军事、科技、体育等
- 下面显示了一些新闻内容,包括"今日要闻"部分
- 底部有"打开凤凰新闻APP 送VIP特权"的推广信息
任务已经完成!我成功打开了Chrome并访问了ifeng.com网站。
==================================================
⏱️ 性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 3.811s
思考完成延迟: 5.501s
总推理时间: 6.359s
==================================================
--------------------------------------------------
🎯 执行动作:
{
"_metadata": "finish",
"message": "任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。"
}
==================================================
🎉 ================================================
✅ 任务完成: 任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。
==================================================
Result: 任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。
四 其他同类 Phone Use Agent 项目
文档反馈
(如有产品使用问题,请 提交工单)