Real-time AI assistant for Meta Ray-Ban smart glasses -- voice + vision + agentic actions via Gemini Live and OpenClaw
VisionClaw 是一个专为 Meta Ray-Ban 智能眼镜设计的实时 AI 助手项目,通过连接 Gemini Live 语音视觉模型和 OpenClaw 工具库,赋予眼镜实时理解环境与主动执行任务的能力。该项目通过流式传输视觉画面与双向实时语音,实现了真正意义上的智能穿戴设备交互体验。
利用眼镜摄像头实时捕捉视觉信息并传输至 Gemini 进行场景语义分析。 支持通过语音指令触发 OpenClaw 工具库,进而调用各类应用程序执行复杂操作。 实现全双工实时语音对话功能,无需经过传统的语音转文字处理流程。 支持通过 WebRTC 技术将眼镜的第一人称视角实时直播到网页端。 提供手机模式作为开发测试环境,允许用户在不佩戴眼镜的情况下先行体验核心功能。
该项目适用于希望将智能眼镜升级为具备主动代理能力的开发者与技术爱好者,特别适合用于探索视觉识别、语音交互以及 AI Agent 在可穿戴设备上的实际落地场景。