ClawSkills logoClawSkills

Voice Agent

使用 AI Voice Agent API 实现的 Agent 本地语音输入/输出。

介绍

# Voice Agent

此技能允许您使用本地语音代理 API 与用户进行语音交互和收听。 它是仅限客户端的功能,不会启动容器或服务。 它使用 **本地 Whisper** 进行语音转文本转录,并使用 **AWS Polly** 进行文本转语音生成。

## 前置条件

需要在 `http://localhost:8000` 运行后端 API。 后端设置说明位于此存储库中: - `README.md` - `walkthrough.md` - `DOCKER_README.md`

## 行为准则

- **音频优先**:当用户通过音频(文件)进行交流时,您的**主要**回复模式是**音频文件**。 - **静默交付**:发送音频回复时,**不要**发送类似“我发送了音频”的文本解释。只需发送音频文件。 - **工作流**: 1. 用户发送音频。 2. 使用 `transcribe` 读取它。 3. 您构思一个回复。 4. 使用 `synthesize` 生成音频文件。 5. 您发送该文件。 6. **停止**。不要添加文本评论。 - **故障处理**:如果 `health` 检查失败或发生连接错误,请勿尝试从此技能管理服务。请用户使用存储库文档启动或修复后端。

## 工具

### 转录文件

要使用 **本地 Whisper STT** 转录音频文件,请使用 `transcribe` 命令运行客户端脚本。

```bash python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg" ```

### 合成为文件

要使用 **AWS Polly TTS** 根据文本生成音频并将其保存到文件,请使用 `synthesize` 命令运行客户端脚本。

```bash python3 {baseDir}/scripts/client.py synthesize "Text to speak" --output "/path/to/output.mp3" ```

### 健康检查

要检查语音代理 API 是否正在运行且运行状况良好:

```bash python3 {baseDir}/scripts/client.py health ```

更多产品