亲测Open-AutoGLM,AI自动刷抖音真实体验分享
随着大模型与智能设备的深度融合,AI 手机助理正从概念走向现实。近期,智谱 AI 开源了Open-AutoGLM——一个基于视觉语言模型(VLM)的手机端 AI Agent 框架,支持通过自然语言指令驱动真实安卓设备完成复杂操作任务。本文将围绕“使用 Open-AutoGLM 实现自动刷抖音”这一具体场景,结合实际部署过程和运行效果,深入解析其技术原理、配置流程及应用潜力。
1. 技术背景与核心价值
1.1 为什么需要手机端 AI Agent?
传统自动化工具如 Tasker 或 Auto.js 虽然能实现脚本化操作,但依赖用户编写精确规则,难以应对界面变化或动态内容。而现代 App 界面高度动态化(如信息流推荐、弹窗广告),使得基于坐标或控件 ID 的自动化方案维护成本极高。
Open-AutoGLM 的出现打破了这一瓶颈。它以多模态方式理解屏幕图像 + 文本语义,结合大模型的推理能力,实现了真正意义上的“意图驱动”操作。用户只需说:“打开抖音刷视频”,系统即可自主规划路径:启动应用 → 识别首页 → 滑动刷新 → 判断是否加载完成 → 继续滑动,整个过程无需预设任何 UI 元素。
1.2 Open-AutoGLM 是什么?
Open-AutoGLM 是由智谱 AI 开源的手机智能体框架,基于其自研的AutoGLM-Phone模型构建。该模型专为移动端交互任务优化,具备以下关键能力:
- 多模态感知:输入为当前手机屏幕截图 + 上下文文本,输出为下一步操作指令。
- 自然语言理解:支持中文口语化指令解析,例如“搜一下那个穿红衣服跳舞的女孩”。
- 动作空间建模:可执行点击、滑动、输入、返回、长按、双击等 10+ 类基本操作。
- 闭环决策机制:每步执行后重新观察屏幕,形成“感知→决策→执行→反馈”的循环。
- 安全接管机制:对支付、登录、验证码等敏感操作提示人工介入。
该项目不仅开源了模型权重(zai-org/AutoGLM-Phone-9B),还提供了完整的控制端代码、ADB 集成模块和远程调试支持,极大降低了研究者与开发者的使用门槛。
2. 环境搭建与部署实践
要实现“AI 自动刷抖音”,我们需要在本地电脑上部署控制端,并连接一台已开启 ADB 调试的安卓手机。以下是详细步骤。
2.1 硬件与软件准备
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows / macOS / Linux |
| Python 版本 | 3.10 或以上 |
| 安卓设备 | Android 7.0+,建议真机(模拟器兼容性有限) |
| 存储空间 | 至少 25GB 可用空间(用于模型缓存) |
| 网络环境 | 稳定 WiFi,确保远程 ADB 连接 |
2.2 ADB 工具安装与配置
ADB(Android Debug Bridge)是连接 PC 与安卓设备的核心工具。需下载 Android SDK Platform Tools 并将其路径加入系统PATH。
Windows 配置示例:
# 解压后添加到环境变量 # 控制面板 → 系统 → 高级系统设置 → 环境变量 → Path → 新增路径 C:\platform-tools验证安装:
adb version # 输出类似:Android Debug Bridge version 1.0.41macOS 快速配置:
export PATH=${PATH}:~/Downloads/platform-tools注意:每次重启终端需重新执行上述命令,建议写入
.zshrc或.bash_profile。
2.3 手机端设置
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7 次,直到提示“您已进入开发者模式”。启用 USB 调试
设置 → 开发者选项 → 启用“USB 调试”。安装 ADB Keyboard
下载 ADB Keyboard APK 并安装。
安装后进入“语言与输入法” → 默认键盘 → 切换为 ADB Keyboard。此输入法允许通过 ADB 命令发送文本,避免手动打字。
连接设备验证
adb devices若显示设备 ID 和
device状态,则连接成功。
3. 控制端部署与模型调用
3.1 克隆并安装 Open-AutoGLM
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .3.2 启动方式选择:云端 vs 本地模型
Open-AutoGLM 支持两种模型调用方式:
| 方式 | 优点 | 缺点 |
|---|---|---|
| 第三方 API(推荐新手) | 无需 GPU,快速上手 | 需注册账号,可能有调用限制 |
| 本地部署(vLLM/SGLang) | 完全私有化,响应快 | 需至少 24GB 显存 |
使用智谱 BigModel API(推荐)
注册 BigModel 获取 API Key。
运行命令:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your-api-key-here" \ "打开抖音刷视频"本地部署模型(高阶用户)
若拥有高性能 GPU(如 A100/H100),可自行部署:
# 使用 vLLM 启动服务 python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --allowed-local-media-path /然后通过本地地址调用:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索美食博主"4. 实际运行:让 AI 自动刷抖音
4.1 测试指令设计
我们设定以下三个典型任务,测试 Open-AutoGLM 在抖音场景下的表现:
打开抖音刷视频搜索抖音号 dycwo11nt61d 的博主并关注他给最近一条视频点赞并转发到微信
4.2 执行流程分析
以第一条为例,执行日志如下(简化版):
[INFO] 当前屏幕:锁屏界面 [Action] 解锁设备(滑动) [INFO] 检测到桌面,查找“抖音”图标 [Action] 点击“抖音”应用图标 [INFO] 检测到启动页广告,等待 3 秒 [Action] 等待 [INFO] 进入首页,发现推荐流 [Action] 向上滑动(模拟手指滑动) [INFO] 视频更新,继续浏览... [Action] 向上滑动 ...整个过程完全由 AI 自主决策,包括:
- 图标识别:通过 OCR + 图像特征匹配定位“抖音”App。
- 动作选择:根据当前状态决定是点击、滑动还是等待。
- 循环控制:持续滑动直至用户中断或达到最大步数。
4.3 多轮交互能力测试
更令人印象深刻的是其上下文理解能力。例如,在执行完“刷视频”后追加指令:
“刚才那个跳街舞的男生是谁?查一下他的主页。”
AI 能正确理解“刚才”指代当前播放的视频,并执行以下动作:
- 截图分析当前视频作者昵称;
- 点击头像进入主页;
- 返回并报告:“用户名为 @dance_kid_2025”。
这表明模型具备较强的跨帧记忆与语义连贯性处理能力。
5. 性能表现与问题排查
5.1 成功率统计(基于 10 次测试)
| 任务 | 成功率 | 主要失败原因 |
|---|---|---|
| 打开抖音刷视频 | 100% | 无 |
| 搜索指定账号并关注 | 80% | 输入法切换异常导致搜索词未输入 |
| 点赞并转发视频 | 60% | 微信未登录,无法完成转发 |
结论:基础导航类任务稳定可靠;涉及多 App 协同的任务受外部状态影响较大。
5.2 常见问题与解决方案
❌ ADB 连接不稳定(WiFi 模式)
adb connect 192.168.x.x:5555 # 错误:unable to connect to 192.168.x.x:5555: Connection refused解决方法:
- 先用 USB 连接设备;
- 执行
adb tcpip 5555开启无线调试; - 断开 USB,再执行
adb connect <IP>:5555。
❌ 模型响应乱码或无动作
可能是模型服务参数不匹配。检查 vLLM 启动命令中是否包含:
--chat-template-content-format string --mm_processor_kwargs "{\"max_pixels\":5000000}" --limit-mm-per-prompt "{\"image\":10}"这些参数确保多模态输入正确解析。
❌ 输入文字失败
确认已安装 ADB Keyboard 并设为默认输入法。可通过以下命令测试:
adb shell input text "Hello"若无效,请手动切换输入法或重启 ADB 服务。
6. 应用前景与工程建议
6.1 可扩展应用场景
Open-AutoGLM 不仅限于刷抖音,还可应用于:
- 自动化测试:替代人工进行 App 回归测试;
- 无障碍辅助:帮助视障人士操作手机;
- 数据采集:自动抓取 App 内容(合规前提下);
- 远程运维:批量管理多台设备(如数字标牌);
- 个性化助手:定时打卡、抢券、比价下单等。
6.2 工程化改进建议
尽管 Open-AutoGLM 已具备强大能力,但在生产环境中仍需优化:
- 增加失败重试机制:当前单步失败可能导致流程终止,应加入超时重试逻辑。
- 支持更多输入法适配:目前依赖 ADB Keyboard,可在代码层封装 fallback 输入策略。
- 引入操作白名单机制:防止误触支付、删除等高风险操作。
- 增强错误恢复能力:当检测到崩溃弹窗时,自动点击“确定”或重启 App。
- 集成日志可视化面板:便于监控 AI 决策路径与性能指标。
7. 总结
Open-AutoGLM 作为国内首个开源的手机端 AI Agent 框架,标志着大模型向真实设备操控迈出了关键一步。本文通过“AI 自动刷抖音”的真实案例,完整展示了其从环境搭建、模型调用到任务执行的全流程。
其核心技术优势在于:
- ✅多模态理解能力:融合视觉与语言,精准感知界面状态;
- ✅自然语言驱动:降低使用门槛,非技术人员也能下达指令;
- ✅闭环执行机制:具备反馈与调整能力,适应复杂交互流程;
- ✅开放生态设计:支持多种部署方式与模型后端,灵活可扩展。
虽然目前在跨 App 协作、长期记忆等方面仍有提升空间,但其展现出的技术方向极具前瞻性。未来,随着模型轻量化与边缘计算的发展,这类 AI Agent 有望成为每个人的“数字分身”,真正实现“一句话办成事”的智能体验。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。