果洛藏族自治州网站建设_网站建设公司_UX设计_seo优化
2026/1/17 0:36:48 网站建设 项目流程

Open-AutoGLM入门教程:无需编程基础也能搭建自己的手机机器人

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

随着大模型技术的发展,AI 正从“对话助手”向“自主执行者”演进。Open-AutoGLM 是由智谱AI开源的一款面向移动端的 AI Agent 框架,旨在让普通用户也能轻松构建具备自动操作能力的手机机器人。该框架基于 AutoGLM-Phone 构建,融合了视觉语言模型(VLM)与自动化控制技术,能够理解自然语言指令,并通过 ADB(Android Debug Bridge)在真实安卓设备上完成一系列复杂操作。

无论是打开应用、搜索内容,还是关注账号、填写表单,用户只需用一句话描述需求,如“打开小红书搜索美食”,系统即可自动解析意图、识别当前界面元素、规划操作路径并执行点击、滑动等动作。整个过程无需手动干预,真正实现“说一句,做到位”。

更重要的是,Open-AutoGLM 的设计充分考虑了易用性与安全性,即使没有编程背景的用户,只要按照本教程逐步配置,也能快速上手使用。

2. 核心功能与工作原理

2.1 多模态感知与智能决策

Phone Agent 的核心在于其多模态理解能力。它结合了以下三大关键技术:

  • 视觉语言模型(VLM):用于实时截图分析,理解屏幕上显示的文字、按钮、图标等内容。
  • 自然语言理解(NLU):将用户的自然语言指令转化为结构化任务目标。
  • 动作规划引擎:根据当前界面状态和目标任务,动态生成下一步操作(如点击、输入、滑动)。

整个流程如下:

  1. 用户输入指令:“打开抖音并关注某博主”;
  2. 系统通过 ADB 截取当前手机屏幕;
  3. 视觉语言模型解析图像内容,识别出可点击区域及其语义;
  4. 结合历史上下文和任务目标,推理出下一步应执行的操作;
  5. 通过 ADB 发送模拟点击或输入命令;
  6. 循环执行,直至任务完成。

2.2 安全机制与人工接管支持

为防止误操作,系统内置了敏感行为确认机制。例如,在涉及支付、删除、权限授权等高风险操作时,会暂停执行并提示用户确认。此外,在登录验证、验证码输入等需要私密信息的场景中,支持人工临时接管,确保数据安全。

2.3 支持远程调试与无线控制

得益于 ADB 的远程连接能力,Open-AutoGLM 不仅支持 USB 有线连接,还允许通过 WiFi 实现无线控制。开发者可在办公室电脑上远程调试家中的测试机,极大提升了开发灵活性和部署效率。

3. 环境准备与设备配置

3.1 硬件与软件要求

要成功运行 Open-AutoGLM,需准备以下软硬件环境:

类别要求
操作系统Windows 或 macOS
Python 版本建议 3.10 及以上
安卓设备Android 7.0+ 手机或模拟器
工具依赖ADB(Android Debug Bridge)

3.2 安装与配置 ADB

ADB 是连接电脑与安卓设备的核心工具。以下是不同系统的安装方法:

Windows 配置步骤
  1. 下载 Android SDK Platform Tools 并解压。
  2. 使用Win + R输入sysdm.cpl,进入“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击“编辑” → “新建”,添加 ADB 解压目录路径(如C:\platform-tools)。
  4. 打开命令提示符,输入adb version,若返回版本号则表示配置成功。
macOS 配置方法

打开终端,执行以下命令(假设 platform-tools 解压至 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

建议将该行写入 shell 配置文件(如.zshrc.bash_profile),避免每次重启终端后重新设置。

4. 手机端设置指南

4.1 开启开发者模式与USB调试

  1. 进入手机“设置” → “关于手机”;
  2. 连续点击“版本号”7次,直到提示“您已开启开发者模式”;
  3. 返回设置主菜单,进入“开发者选项”;
  4. 启用“USB调试”开关。

注意:部分厂商(如小米、华为)可能还需额外开启“USB调试(安全设置)”或关闭“MIUI优化”。

4.2 安装 ADB Keyboard 输入法

由于系统无法直接调用第三方输入法进行文本输入,需安装专用的ADB Keyboard来实现远程文字输入。

  1. 访问 ADB Keyboard GitHub Release 页面 下载最新版 APK;
  2. 将 APK 文件传输到手机并安装;
  3. 进入“设置” → “语言与输入法” → “默认键盘”;
  4. 选择“ADB Keyboard”作为当前输入法。

安装完成后,系统可通过 ADB 命令发送文本,实现自动填表、搜索等功能。

5. 部署 Open-AutoGLM 控制端

5.1 克隆项目代码

在本地电脑上打开终端,执行以下命令下载 Open-AutoGLM 项目:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

5.2 安装依赖库

项目依赖多个 Python 包,包括 FastAPI、Pillow、uiautomator2 等。使用 pip 安装:

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装本地包,便于后续调试修改。

6. 设备连接方式详解

6.1 USB 连接方式

最稳定的方式是通过 USB 数据线连接手机与电脑。

  1. 使用数据线连接手机;
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”;
  3. 在终端运行:
adb devices

输出示例:

List of devices attached ABCDEF1234567890 device

只要出现device状态,说明连接成功。

6.2 WiFi 远程连接方式

对于长期运行或远程部署场景,推荐使用 WiFi 连接。

第一步:通过 USB 启动 TCP/IP 模式
adb tcpip 5555

此命令将设备监听在 5555 端口。

第二步:断开 USB,使用 IP 连接

获取手机局域网 IP 地址(可在“设置”→“WLAN”中查看),然后执行:

adb connect 192.168.x.x:5555

连接成功后,再次运行adb devices应能看到设备列表。

提示:WiFi 连接稳定性受网络影响较大,若频繁掉线,建议改用 USB 方式。

7. 启动 AI 代理并执行任务

7.1 命令行方式运行任务

一切准备就绪后,即可启动 AI 代理执行自然语言指令。

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备标识符
--base-url云端 vLLM 服务地址,格式为http://IP:Port/v1
--model指定使用的模型名称
最后字符串用户下达的自然语言指令

注意base-url必须指向已部署的 vLLM 服务,且模型已加载autoglm-phone-9b

7.2 使用 Python API 进行远程控制

除了命令行,Open-AutoGLM 还提供了 Python 接口,方便集成到其他系统中。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在 USB 设备上启用 TCP/IP 模式 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开指定设备 conn.disconnect("192.168.1.100:5555")

该脚本可用于自动化检测设备状态、动态切换连接方式,适合构建更复杂的控制逻辑。

8. 常见问题与排查建议

8.1 ADB 连接失败

  • 现象adb devices显示unauthorized
    解决:检查手机是否弹出“允许USB调试?”提示,勾选“始终允许”后点击“确定”。

  • 现象adb connect失败或超时
    解决:确认手机与电脑在同一局域网;关闭防火墙或杀毒软件;尝试重启 ADB 服务:adb kill-server && adb start-server

8.2 模型无响应或乱码

  • 可能原因:vLLM 服务未正确启动或参数不匹配
    检查项
    • 确保max-model-len设置足够大(建议 ≥ 8192)
    • 显存是否充足?9B 模型至少需要 16GB GPU 显存
    • 请求头是否包含正确的Authorization字段(如有)

8.3 动作执行错误或卡顿

  • 建议
    • 提高截图频率(降低延迟)
    • 检查手机是否处于省电模式,关闭锁屏自动休眠
    • 避免后台过多应用干扰

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询