肉包 Roubao 深度技术解析:首款无需电脑的开源 AI 手机自动化助手

张开发
2026/4/3 22:09:12 15 分钟阅读
肉包 Roubao 深度技术解析:首款无需电脑的开源 AI 手机自动化助手
—— 从 VLM Kotlin 原生实现看 Android 手机自动化的未来2025 年 12 月字节跳动与中兴联合推出的「豆包手机助手」一经发布便引发热议它能自主完成比价下单、批量投简历、刷视频甚至代打游戏等复杂任务。首批 3 万台工程机 3499 元秒售罄二手价飙升至 5000 元。普通用户买不到那就自己造一个——这就是Roubao肉包的诞生背景。RoubaoGitHub: Turbo1123/roubao是一款**完全开源MIT 协议**的 Android 原生 AI 自动化工具已收获 2000 Star。它基于视觉语言模型VLM使用 Kotlin 纯原生开发无需电脑、无需 Root、无需数据线安装 App 即可运行。本文将图文详实、步骤清晰地拆解 Roubao 的核心设计、架构实现、安装使用、源码结构并对比传统方案帮你快速上手并理解其技术亮点。一、项目概览为什么 Roubao 能“火”核心定位首款无需 PC 的开源 AI 手机自动化助手。技术关键词Vision-Language ModelsVLM Native Kotlin Shizuku Tools/Skills 双层 Agent 架构。特性对比Roubao豆包手机助手其他开源方案如 MobileAgent是否需要电脑❌ 无需❌ 无需✅ 大多需要是否需要特殊硬件❌ 无需✅ 需要3499 元❌ 无需实现语言✅ Kotlin 原生原生❌ Python开源协议✅ MIT❌ 闭源✅ 是执行延迟低本地低高PC 转发自定义模型✅ 支持 Qwen/GPT-4V/Claude/Ollama 等❌ 仅豆包部分支持UI/用户友好度⭐⭐⭐½Material 3⭐⭐⭐⭐⭐⭐Roubao 直接解决了传统自动化痛点必须连 PC ADB Python 环境技术门槛高。Roubao 做到“一键安装 → 配置 API Key → 自然语言下指令 → 手机自主执行”。项目仓库https://github.com/Turbo1123/roubao最新版本v1.4.22025-12-18二、核心创新Shizuku VLM 双层 Agent1. 为什么用 Shizuku 代替 ADB普通 Android App 受系统权限限制无法模拟点击、读取其他 App UI、执行input tap、screencap等操作。传统方案必须 PC 转发 ADB。Shizuku 解决方案无需 Root一次开启无线调试或 ADB 启动 Shizuku 服务。后续 App 通过 Shizuku 获得 ADB 级权限。Roubao 直接在手机本地完成截图 → 分析 → 执行延迟大幅降低。安装 Shizuku 步骤无线调试推荐Android 11设置 → 开发者选项 → 开启「无线调试」。下载 ShizukuGoogle Play / GitHub Releases。打开 Shizuku选择「无线调试」→ 启动。2. Tools Skills 双层架构Claude Code 启发Roubao 借鉴 MobileAgent-v3 并用 Kotlin 重构采用双层 Agent 框架Tools 层原子能力提供底层操作如search_apps智能搜 App支持拼音/语义、open_app、deep_link、clipboard、shell、http。Skills 层用户意图将自然语言映射为具体策略如「帮我点外卖」→ 委托小美 AI 或 GUI 操作美团。执行路径分两种委托模式Fast Path高置信 → DeepLink 直接打开具备 AI 的 App如小美、豆包、即梦。GUI 自动化模式Standard Path截图 → VLM 分析屏幕 → Agent 循环规划/执行/反思。架构流程图Grok Imagine 生成三、安装与使用5 分钟上手图文步骤前提Android 8.0API 26已安装并启动 ShizukuVLM API Key推荐阿里通义千问 DashScope国内速度快详细步骤下载 APK去 Releases 页面下载最新app-release.apkhttps://github.com/Turbo1123/roubao/releases。安装并授权安装后打开 Roubao → Shizuku 授权窗口 → 点击授权。配置 API Key进入「设置」→ 「VLM 服务商」→ 选择阿里云/OpenAI 等 → 粘贴 KeyAES-256-GCM 加密存储安全。开始使用首页输入自然语言如「帮我点一份黄焖鸡米饭」→ 点击执行 → 悬浮窗实时显示进度 → 可随时停止。安全机制遇到支付/密码页自动停止支持手动取消可选关闭崩溃上报。首页已经预设了一些指令内置的agent运行日志四、源码结构与关键实现开发者视角仓库采用标准 Android Gradle 项目结构核心代码在app/src/main/java/com/roubao/autopilot/app/ ├── src/main/java/com/roubao/autopilot/ │ ├── agent/ # 多 Agent 核心MobileAgent 移植 │ │ ├── MobileAgent.kt # 主循环 │ │ ├── Manager.kt # 规划 Agent │ │ ├── Executor.kt # 执行 Agent │ │ ├── ActionReflector.kt # 反思 Agent │ │ └── InfoPool.kt # 状态池 │ ├── tools/ # Tools 层 │ │ ├── Tool.kt │ │ ├── ToolManager.kt │ │ └── SearchAppsTool.kt / OpenAppTool.kt ... │ ├── skills/ # Skills 层 │ │ ├── Skill.kt │ │ ├── SkillRegistry.kt │ │ └── SkillManager.kt │ ├── controller/ # 设备控制 │ │ └── DeviceController.kt # Shizuku 集成 │ ├── vlm/ # VLM 客户端 │ │ └── VLMClient.kt # 支持多模型 │ ├── ui/ # Jetpack Compose Material 3 │ └── data/ # SettingsManager.kt ├── assets/skills.json # Skills 配置 └── AndroidManifest.xml # Shizuku、悬浮窗权限关键技术点VLM 集成VLMClient.kt封装多提供商动态加载模型列表。屏幕理解截图后 Base64 编码发送 VLMPrompt 引导分析当前界面元素与下一步动作。Agent 循环Manager 规划 → Executor 执行 → Reflector 反思错误 → 迭代优化。UICompose Material 3支持深色/浅色主题、中英双语。构建命令开发者gitclone https://github.com/Turbo1123/roubao.gitcdroubao ./gradlew assembleDebug五、实际效果与扩展性Roubao 已支持点外卖、发微信、导航、生成图片等 Skills。未来计划增加更多自定义 Skill 与本地模型支持Ollama/vLLM。与其他方案对比传统 Python 方案延迟高、依赖 PCRoubao 真正做到“手机即 Agent”。潜在改进VLM 响应速度仍受网络/模型限制Root 模式下可解锁更多 su 命令。六、总结与推荐Roubao 是 Android 自动化领域的一次里程碑式尝试它把 MobileAgent 的 Python 框架完整移植到 Kotlin 原生结合 Shizuku 实现零 PC 体验并用现代 Agent 架构Tools Skills大幅提升可用性。无论你是普通用户还是开发者都值得尝试用户直接下载 APK 体验 AI 解放双手。开发者研究源码贡献 Skill 或支持更多 VLM。项目地址https://github.com/Turbo1123/roubao中文文档README.md英文文档README_EN.md开源精神万岁欢迎 Star Fork一起让每台 Android 手机都拥有自己的「AI 助手」。你试过了吗欢迎评论分享你的 Roubao 使用体验

更多文章