AI 大模型推理

  • AI 大模型推理 > 最佳实践 > 大模型Agent控制手机——用 `AutoGLM-Phone-9B` 等平替豆包手机 (Phone Use Agent)

    大模型Agent控制手机——用 `AutoGLM-Phone-9B` 等平替豆包手机 (Phone Use Agent)

    最近更新时间: 2025-12-19 16:13:05

    本文档介绍Phone Use Agent场景,即通过 Claude Code 自动安装 AutoGLM,再运行 AutoGLMAutoGLM-Phone-9B 来控制操作Android手机。

    一 用 Claude Code 安装 AutoGLM

    Claude Code 配置模型,APIKey

    # 打开终端窗口,设置以下环境变量
    export ANTHROPIC_BASE_URL=https://api.qnaigc.com
    export API_TIMEOUT_MS=600000
    export ANTHROPIC_MODEL=deepseek/deepseek-v3.2-251201
    export ANTHROPIC_SMALL_FAST_MODEL=claude-4.5-haiku
    export ANTHROPIC_AUTH_TOKEN=sk-d8d5****b854
    

    Claude Code 自动下载和安装 AutoGLM

    • 启动
    claude
    
    • 拷贝执行以下指令:
    访问文档,为我安装 AutoGLM
    https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
    

    二 安装 adb 工具和 ADBKeyBoard

    下载 adb 安装到 电脑

    • 用浏览器打开 android 开发者网站,根据电脑系统版本下载合适的 platform-tools

    Android SDK 官网

    • 解压后,将目录设置到 PATH 环境变量
    • 将打开了 开发者选项USB调试 的Android手机接入到电脑USB端口
    • 用以下 adb 命令查看连接上的手机设备
    adb devices
    
    # 显示如下类似内容,至少包括一个device
    List of devices attached
    113cc13a	device
    

    下载 DBKeyBoard 包,安装到 手机

    下载 ADBKeyBoard APK安装包

    adb install ./ADBKeyboard.apk
    
    adb shell ime enable com.android.adbkeyboard/.AdbIME
    

    三 运行 AutoGLM

    配置 AutoGLM-Phone-9B 模型环境

    # 以 https://developer.qiniu.com/aitokenapi/12884/how-to-get-api-key 为例,
    # 获取 base url 和 apikey
    --base-url https://api.qnaigc.com/v1 \
    --model "ZhipuAI/AutoGLM-Phone-9B" \
    --apikey "sk-********"
    

    获取API Key

    检查是否可用 adb 为手机截屏

    # 验证下手机上可保存截图的目录 
    adb shell screencap -p /storage/Download/tmp.png
    
    # 编辑修改 `phone_agent/adb/screenshot.py` 对应的第 46 & 59 行图片目录
    
    # 再适当调大 `main.py` 中的 `timeout` 设置(包括OpenAI接口和adb调用)
    

    执行以下命令

    cd Open-AutoGLM
    python3 main.py --base-url https://api.qnaigc.com/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "sk-********" "打开相册"
    

    日志和运行过程

    附一:点击展开查看“打开相册”的任务详情

    🔍 Checking system requirements...
    --------------------------------------------------
    1. Checking ADB installation... ✅ OK (Android Debug Bridge version 1.0.41)
    2. Checking connected devices... ✅ OK (1 device(s): 113cc13a)
    3. Checking ADB Keyboard... ✅ OK
    --------------------------------------------------
    ✅ All system checks passed!
    
    🔍 Checking model API...
    --------------------------------------------------
    1. Checking API connectivity (https://api.qnaigc.com/v1)... ✅ OK
    --------------------------------------------------
    ✅ Model API checks passed!
    
    ==================================================
    Phone Agent - AI-powered phone automation
    ==================================================
    Model: ZhipuAI/AutoGLM-Phone-9B
    Base URL: https://api.qnaigc.com/v1
    Max Steps: 100
    Language: cn
    Device: 113cc13a (auto-detected)
    ==================================================
    
    Task: 打开相册
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    用户要求打开相册。我需要查看当前屏幕上是否有相册应用。
    
    从截图中,我可以看到一个系统桌面,上面有多个应用图标。我需要找到"相册"应用。
    
    在屏幕上,我可以看到:
    - 第一行:儿童模式、应用商店、文件夹、视频音乐
    - 第二行:工具(有红点通知)、文件夹、Mind Notes、Nextcloud
    - 第三行:设置、相册(橙色图标)、Epson iP...、工具
    - 第四行:录音机、联系人、微信
    
    我找到了!在第三行有一个橙色图标的应用,下面标注着"相册"。这个应用的位置大约在屏幕中间偏左的位置。
    
    让我点击这个相册应用。根据截图,它的位置大约在坐标 (383, 377) 附近。
    
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 9.578s
    思考完成延迟:        12.232s
    总推理时间:          12.714s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Tap",
      "element": [
        383,
        377
      ]
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    太好了!相册应用已经成功打开。我可以看到:
    
    1. 顶部显示"相册"标题
    2. 有几个主要分类:
       - 全部项目 (368)
       - 相机 (64)
       - 视频 (32)
       - 截屏 (137)
    3. 还有"更多相册"部分,显示了多个相册文件夹:
       - 微信 (58)
       - II·微信 (3)
       - Download (3)
       - DCIM (43)
       - Pictures (27)
       - 其他相册 (14)
    
    底部有导航栏:照片、相册、推荐、搜索
    
    任务已经完成,相册应用已成功打开并显示主界面。
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 4.079s
    思考完成延迟:        9.619s
    总推理时间:          11.038s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "finish",
      "message": "已成功打开相册应用!现在显示的是相册主界面,可以看到:\n- 全部项目(368个)\n- 相机(64个)\n- 视频(32个)\n- 截屏(137个)\n- 以及更多相册文件夹,包括微信、DCIM、Pictures等\n\n您可以在这里浏览和管理所有的照片和视频。"
    }
    ==================================================
    
    
    🎉 ================================================
    ✅ 任务完成: 已成功打开相册应用!现在显示的是相册主界面,可以看到:
    - 全部项目(368个)
    - 相机(64个)
    - 视频(32个)
    - 截屏(137个)
    - 以及更多相册文件夹,包括微信、DCIM、Pictures等
    
    您可以在这里浏览和管理所有的照片和视频。
    ==================================================
    
    
    Result: 已成功打开相册应用!现在显示的是相册主界面,可以看到:
    - 全部项目(368个)
    - 相机(64个)
    - 视频(32个)
    - 截屏(137个)
    - 以及更多相册文件夹,包括微信、DCIM、Pictures等
    
    您可以在这里浏览和管理所有的照片和视频。
    
    

    附二:点击展开查看“打开网站”的任务详情

    python3 main.py --base-url https://api.qnaigc.com/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "sk-********" "打开Chrome,访问ifeng.com"
    
    🔍 Checking system requirements...
    --------------------------------------------------
    1. Checking ADB installation... ✅ OK (Android Debug Bridge version 1.0.41)
    2. Checking connected devices... ✅ OK (1 device(s): 113cc13a)
    3. Checking ADB Keyboard... ✅ OK
    --------------------------------------------------
    ✅ All system checks passed!
    
    🔍 Checking model API...
    --------------------------------------------------
    1. Checking API connectivity (https://api.qnaigc.com/v1)... ✅ OK
    --------------------------------------------------
    ✅ Model API checks passed!
    
    ==================================================
    Phone Agent - AI-powered phone automation
    ==================================================
    Model: ZhipuAI/AutoGLM-Phone-9B
    Base URL: https://api.qnaigc.com/v1
    Max Steps: 100
    Language: cn
    Device: 113cc13a (auto-detected)
    ==================================================
    
    Task: 打开Chrome,访问ifeng.com
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    用户要求打开Chrome,访问ifeng.com。我需要:
    1. 先打开Chrome浏览器
    2. 然后在浏览器中访问ifeng.com
    
    首先,我需要启动Chrome应用。根据允许的应用列表,"chrome"是允许的应用之一。
    
    当前屏幕显示的是系统桌面,我可以看到各种应用图标。我应该使用Launch功能直接启动Chrome应用。
    
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 6.235s
    思考完成延迟:        7.662s
    总推理时间:          7.924s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Launch",
      "app": "chrome"
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    好的,Chrome已经打开了。我可以看到屏幕上显示"在 百度 中搜索或输入"的提示,说明当前在搜索界面。屏幕大部分是黑色的,可能是在加载中。
    
    我需要等待页面完全加载,然后输入ifeng.com来访问这个网站。让我等待一下页面加载完成。
    
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 1.706s
    思考完成延迟:        2.479s
    总推理时间:          2.595s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Wait",
      "duration": "1 seconds"
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    好的,现在页面加载完成了。我可以看到:
    - 顶部有一个搜索框,显示"在 百度 中搜索或输入"
    - 下面有一些快捷入口:百度、YouTube、虎扑、Facebook、Git等
    - 还有一个"继续使用此标签页"的提示
    
    现在我需要点击顶部的搜索框,然后输入"ifeng.com"来访问这个网站。让我点击搜索框。
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 3.570s
    思考完成延迟:        4.964s
    总推理时间:          5.143s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Tap",
      "element": [
        499,
        62
      ]
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    好的,现在键盘已经弹出来了。我可以看到:
    - 顶部搜索框现在显示"在 百度 中搜索或输入网址"
    - 底部出现了键盘
    - 有一个绿色的发送按钮在右下角
    
    现在我需要在搜索框中输入"ifeng.com"。我应该点击搜索框,然后使用Type功能输入文字。让我先点击搜索框确保它获得焦点。
    
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 2.068s
    思考完成延迟:        3.415s
    总推理时间:          3.607s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Type",
      "text": "ifeng.com"
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    太好了!我已经成功输入了"ifeng.com",现在可以看到:
    - 顶部搜索框显示"ifeng.com"
    - 下面出现了搜索建议,包括:
      - ifeng.com(两个条目)
      - ifeng.com(蓝色链接)
      - ifeng.com
      - 一个finance.ifeng.com的新闻链接
    
    现在我需要点击其中一个ifeng.com的选项来访问该网站。我可以点击第一个或第二个ifeng.com选项。让我点击第一个。
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 3.537s
    思考完成延迟:        5.226s
    总推理时间:          5.390s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "do",
      "action": "Tap",
      "element": [
        499,
        130
      ]
    }
    ==================================================
    
    
    ==================================================
    💭 思考过程:
    --------------------------------------------------
    完美!我已经成功访问了ifeng.com(凤凰新闻)的网站。现在可以看到:
    - 顶部显示地址栏:i.ifeng.com/?ch=i
    - 网站logo显示"鳳凰新闻"
    - 有各种分类标签:资讯、娱乐、财经、卫视、军事、科技、体育等
    - 下面显示了一些新闻内容,包括"今日要闻"部分
    - 底部有"打开凤凰新闻APP 送VIP特权"的推广信息
    
    任务已经完成!我成功打开了Chrome并访问了ifeng.com网站。
    
    ==================================================
    ⏱️  性能指标:
    --------------------------------------------------
    首 Token 延迟 (TTFT): 3.811s
    思考完成延迟:        5.501s
    总推理时间:          6.359s
    ==================================================
    --------------------------------------------------
    🎯 执行动作:
    {
      "_metadata": "finish",
      "message": "任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。"
    }
    ==================================================
    
    
    🎉 ================================================
    ✅ 任务完成: 任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。
    ==================================================
    
    
    Result: 任务完成!我已经成功打开Chrome并访问了ifeng.com(凤凰新闻)网站。现在屏幕上显示的是凤凰新闻的主页,可以看到各种新闻分类(资讯、娱乐、财经、卫视等)和今日要闻的内容。
    

    四 其他同类 Phone Use Agent 项目

    以上内容是否对您有帮助?