介绍
# Pocket TTS Skill
使用 Kyutai 的 Pocket TTS 模型实现完全本地、离线的文本转语音。无需任何 API 调用或互联网连接,即可从文本生成高质量音频。拥有 8 种内置声音,支持声音克隆,且完全在 CPU 上运行。
## 功能
- 🎯 **完全本地** - 无 API 调用,完全离线运行 - 🚀 **仅 CPU** - 无需 GPU,适用于任何计算机 - ⚡ **快速生成** - CPU 上约 2-6 倍实时速度 - 🎤 **8 种内置声音** - alba, marius, javert, jean, fantine, cosette, eponine, azelma - 🎭 **声音克隆** - 通过 WAV 样本克隆任何声音 - 🔊 **低延迟** - 首个音频块约 200ms - 📚 **简单的 Python API** - 易于集成到任何项目
## 安装
```bash # 1. Accept the model license on Hugging Face # https://huggingface.co/kyutai/pocket-tts
# 2. Install the package pip install pocket-tts
# Or use uv for automatic dependency management uvx pocket-tts generate "Hello world" ```
## 使用方法
### CLI
```bash # Basic usage pocket-tts "Hello, I am your AI assistant"
# With specific voice pocket-tts "Hello" --voice alba --output hello.wav
# With custom voice file (voice cloning) pocket-tts "Hello" --voice-file myvoice.wav --output output.wav
# Adjust speed pocket-tts "Hello" --speed 1.2
# Start local server pocket-tts --serve
# List available voices pocket-tts --list-voices ```
### Python API
```python from pocket_tts import TTSModel import scipy.io.wavfile
# Load model tts_model = TTSModel.load_model()
# Get voice state voice_state = tts_model.get_state_for_audio_prompt( "hf://kyutai/tts-voices/alba-mackenna/casual.wav" )
# Generate audio audio = tts_model.generate_audio(voice_state, "Hello world!")
# Save to WAV scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())
# Check sample rate print(f"Sample rate: {tts_model.sample_rate} Hz") ```
## 可用声音
| 声音 | 描述 | |-------|-------------| | alba | 随性女声 | | marius | 男声 | | javert | 清晰男声 | | jean | 自然男声 | | fantine | 女声 | | cosette | 女声 | | eponine | 女声 | | azelma | 女声 |
或者使用 `--voice-file /path/to/wav.wav` 进行自定义声音克隆。
## 选项
| 选项 | 描述 | 默认值 | |--------|-------------|---------| | `text` | 要转换的文本 | 必填 | | `-o, --output` | 输出 WAV 文件 | `output.wav` | | `-v, --voice` | 声音预设 | `alba` | | `-s, --speed` | 语速 (0.5-2.0) | `1.0` | | `--voice-file` | 用于克隆的自定义 WAV | 无 | | `--serve` | 启动 HTTP 服务器 | False | | `--list-voices` | 列出所有声音 | False |
## 系统要求
- Python 3.10-3.14 - PyTorch 2.5+(CPU 版本即可) - 2 个 CPU 核心即可运行
## 注意事项
- ⚠️ 模型受访问限制 - 需先在 Hugging Face 上接受许可协议 - 🌍 目前仅支持英语(v1 版本) - 💾 首次运行会下载模型(约 100M 参数) - 🔊 音频以 1D torch 张量形式返回(PCM 数据)
## 相关链接
- [演示](https://kyutai.org/tts) - [GitHub](https://github.com/kyutai-labs/pocket-tts) - [Hugging Face](https://huggingface.co/kyutai/pocket-tts) - [论文](https://arxiv.org/abs/2509.06926)