VisionClaw

一款为 Meta Ray-Ban 智能眼镜打造的实时 AI 助手。通过语音即可实现：看见你所见、听见你所言，并代表你采取行动。

Cover

基于 Meta Wearables DAT SDK (iOS) / DAT Android SDK (Android) + Gemini Live API + OpenClaw (可选) 构建。

支持平台： iOS (iPhone) 和 Android (Pixel, Samsung 等)

功能简介

戴上眼镜，轻点 AI 按钮，即可开始对话：

“我正在看什么？” —— Gemini 通过你的眼镜摄像头观察并描述场景。
“把牛奶加入我的购物清单” —— 委托给 OpenClaw，通过你的已连接应用执行添加操作。
“发消息给 John 说我会迟到” —— 通过 OpenClaw 路由至 WhatsApp/Telegram/iMessage。
“搜索附近最好的咖啡店” —— 通过 OpenClaw 进行网页搜索，并以语音播报结果。

眼镜摄像头以约 1fps 的速率向 Gemini 传输视觉内容，同时实现双向实时音频交互。

工作原理

How It Works

Meta Ray-Ban 眼镜 (或手机摄像头)
       |
       | 视频帧 + 麦克风音频
       v
iOS / Android App (本项目)
       |
       | JPEG 帧 (~1fps) + PCM 音频 (16kHz)
       v
Gemini Live API (WebSocket)
       |
       |-- 音频响应 (PCM 24kHz) --> App --> 扬声器
       |-- 工具调用 (执行) -------> App --> OpenClaw 网关
       |                                              |
       |                                              v
       |                                      56+ 技能：网页搜索、
       |                                      消息发送、智能家居、
       |                                      笔记、提醒等。
       |                                              |

设置：Android

1. 配置 GitHub Packages

由于 DAT SDK 托管在 GitHub Packages 上，你需要配置认证：

前往 Settings > Developer Settings > Personal Access Tokens，创建一个具有 read:packages 权限的 classic token。
在 samples/CameraAccessAndroid/local.properties 中添加：

github_token=YOUR_GITHUB_TOKEN

提示： 如果你已安装 gh CLI，可以运行 gh auth token 来获取有效 token。请确保它具有 read:packages 权限 —— 如果没有，请运行 gh auth refresh -s read:packages。

注意： 即便对于公共存储库，GitHub Packages 也需要认证。401 错误表示你的 token 缺失或无效。

3. 添加你的密钥

cd samples/CameraAccessAndroid/app/src/main/java/com/meta/wearable/dat/externalsampleapps/cameraaccess/
cp Secrets.kt.example Secrets.kt

编辑 Secrets.kt，填入你的 Gemini API key（必需）以及可选的 OpenClaw/WebRTC 配置。

4. 构建与运行

让 Gradle 在 Android Studio 中同步（它会自动从 GitHub Packages 下载 DAT SDK）。
选择你的 Android 手机作为目标设备。
点击运行 (Shift+F10)。

无线调试： 你也可以通过无线 ADB 安装。在手机的“开发者选项”中启用“无线调试”，然后通过 adb pair <ip>:<port> 进行配对。

5. 开始体验

无需眼镜（手机模式）：

点击 "Start on Phone" —— 使用手机后置摄像头。
点击 AI 按钮（闪烁图标）启动 Gemini Live 会话。
与 AI 对话 —— 它可以通过手机摄像头看到内容。

使用 Meta Ray-Ban 眼镜：

在 Meta AI 应用中启用开发者模式（步骤同上文 iOS），然后：

在应用中点击 "Start Streaming"。
点击 AI 按钮 开始语音+视觉对话。

设置：OpenClaw（可选）

OpenClaw 赋予 Gemini 执行现实世界操作的能力：发送消息、搜索网页、管理列表、控制智能家居设备等。如果没有它，Gemini 仅支持语音和视觉交互。

1. 安装并配置 OpenClaw

参考 OpenClaw 设置指南。确保启用了网关：

在 ~/.openclaw/openclaw.json 中：

{
  "gateway": {
    "port": 18789,
    "bind": "lan",
    "auth": {
      "mode": "token",
      "token": "your-gateway-token-here"
    },
    "http": {
      "endpoints": {
        "chatCompletions": { "enabled": true }
      }
    }
  }
}

关键设置：

bind: "lan" —— 将网关暴露在本地网络中，以便手机可以连接。
chatCompletions.enabled: true —— 启用 /v1/chat/completions 端点（默认关闭）。
auth.token —— 你的应用将用于身份验证的 token。

2. 配置应用

iOS -- 在 Secrets.swift 中：

static let openClawHost = "http://Your-Mac.local"
static let openClawPort = 18789
static let openClawGatewayToken = "your-gateway-token-here"

Android -- 在 Secrets.kt 中：

const val openClawHost = "http://Your-Mac.local"
const val openClawPort = 18789
const val openClawGatewayToken = "your-gateway-token-here"

查看你的 Mac 的 IP 地址以替换 Your-Mac.local。

Intent-Lab/VisionClaw