介绍
# ElevenLabs Speech-to-Text
使用 ElevenLabs 的 Scribe v2 模型转录音频文件。支持 90 多种语言,并包含说话人分离功能。
## 快速开始
```bash # Basic transcription {baseDir}/scripts/transcribe.sh /path/to/audio.mp3
# With speaker diarization {baseDir}/scripts/transcribe.sh /path/to/audio.mp3 --diarize
# Specify language (improves accuracy) {baseDir}/scripts/transcribe.sh /path/to/audio.mp3 --lang en
# Full JSON output with timestamps {baseDir}/scripts/transcribe.sh /path/to/audio.mp3 --json ```
## 选项
| 标志 | 描述 | |------|-------------| | `--diarize` | 识别不同的说话人 | | `--lang CODE` | ISO 语言代码(例如 en、pt、es) | | `--json` | 输出包含单词时间戳的完整 JSON | | `--events` | 标记音频事件(笑声、音乐等) |
## 支持的格式
所有主流音频/视频格式:mp3、m4a、wav、ogg、webm、mp4 等。
## API 密钥
设置 `ELEVENLABS_API_KEY` 环境变量,或在 clawdbot.json 中进行配置:
```json5 { skills: { entries: { "elevenlabs-stt": { apiKey: "sk_..." } } } } ```
## 示例
```bash # Transcribe a WhatsApp voice note {baseDir}/scripts/transcribe.sh ~/Downloads/voice_note.ogg
# Meeting recording with multiple speakers {baseDir}/scripts/transcribe.sh meeting.mp3 --diarize --lang en
# Get JSON for processing {baseDir}/scripts/transcribe.sh podcast.mp3 --json > transcript.json ```