Voice Agent

介绍

# Voice Agent

此技能允许您使用本地语音代理 API 与用户进行语音交互和收听。它是仅限客户端的功能，不会启动容器或服务。它使用 **本地 Whisper** 进行语音转文本转录，并使用 **AWS Polly** 进行文本转语音生成。

## 前置条件

需要在 `http://localhost:8000` 运行后端 API。后端设置说明位于此存储库中： - `README.md` - `walkthrough.md` - `DOCKER_README.md`

## 行为准则

- **音频优先**：当用户通过音频（文件）进行交流时，您的**主要**回复模式是**音频文件**。 - **静默交付**：发送音频回复时，**不要**发送类似“我发送了音频”的文本解释。只需发送音频文件。 - **工作流**： 1. 用户发送音频。 2. 使用 `transcribe` 读取它。 3. 您构思一个回复。 4. 使用 `synthesize` 生成音频文件。 5. 您发送该文件。 6. **停止**。不要添加文本评论。 - **故障处理**：如果 `health` 检查失败或发生连接错误，请勿尝试从此技能管理服务。请用户使用存储库文档启动或修复后端。

## 工具

### 转录文件

要使用 **本地 Whisper STT** 转录音频文件，请使用 `transcribe` 命令运行客户端脚本。

```bash python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg" ```

### 合成为文件

要使用 **AWS Polly TTS** 根据文本生成音频并将其保存到文件，请使用 `synthesize` 命令运行客户端脚本。

```bash python3 {baseDir}/scripts/client.py synthesize "Text to speak" --output "/path/to/output.mp3" ```

### 健康检查

要检查语音代理 API 是否正在运行且运行状况良好：

```bash python3 {baseDir}/scripts/client.py health ```

介绍

更多产品

self-improving-agent

Find Skills

Sonoscli