Pocket Tts

介绍

# Pocket TTS Skill

使用 Kyutai 的 Pocket TTS 模型实现完全本地、离线的文本转语音。无需任何 API 调用或互联网连接，即可从文本生成高质量音频。拥有 8 种内置声音，支持声音克隆，且完全在 CPU 上运行。

## 功能

- 🎯 **完全本地** - 无 API 调用，完全离线运行 - 🚀 **仅 CPU** - 无需 GPU，适用于任何计算机 - ⚡ **快速生成** - CPU 上约 2-6 倍实时速度 - 🎤 **8 种内置声音** - alba, marius, javert, jean, fantine, cosette, eponine, azelma - 🎭 **声音克隆** - 通过 WAV 样本克隆任何声音 - 🔊 **低延迟** - 首个音频块约 200ms - 📚 **简单的 Python API** - 易于集成到任何项目

## 安装

```bash # 1. Accept the model license on Hugging Face # https://huggingface.co/kyutai/pocket-tts

# 2. Install the package pip install pocket-tts

# Or use uv for automatic dependency management uvx pocket-tts generate "Hello world" ```

## 使用方法

### CLI

```bash # Basic usage pocket-tts "Hello, I am your AI assistant"

# With specific voice pocket-tts "Hello" --voice alba --output hello.wav

# With custom voice file (voice cloning) pocket-tts "Hello" --voice-file myvoice.wav --output output.wav

# Adjust speed pocket-tts "Hello" --speed 1.2

# Start local server pocket-tts --serve

# List available voices pocket-tts --list-voices ```

### Python API

```python from pocket_tts import TTSModel import scipy.io.wavfile

# Load model tts_model = TTSModel.load_model()

# Get voice state voice_state = tts_model.get_state_for_audio_prompt( "hf://kyutai/tts-voices/alba-mackenna/casual.wav" )

# Generate audio audio = tts_model.generate_audio(voice_state, "Hello world!")

# Save to WAV scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

# Check sample rate print(f"Sample rate: {tts_model.sample_rate} Hz") ```

## 可用声音

| 声音 | 描述 | |-------|-------------| | alba | 随性女声 | | marius | 男声 | | javert | 清晰男声 | | jean | 自然男声 | | fantine | 女声 | | cosette | 女声 | | eponine | 女声 | | azelma | 女声 |

或者使用 `--voice-file /path/to/wav.wav` 进行自定义声音克隆。

## 选项

| 选项 | 描述 | 默认值 | |--------|-------------|---------| | `text` | 要转换的文本 | 必填 | | `-o, --output` | 输出 WAV 文件 | `output.wav` | | `-v, --voice` | 声音预设 | `alba` | | `-s, --speed` | 语速 (0.5-2.0) | `1.0` | | `--voice-file` | 用于克隆的自定义 WAV | 无 | | `--serve` | 启动 HTTP 服务器 | False | | `--list-voices` | 列出所有声音 | False |

## 系统要求

- Python 3.10-3.14 - PyTorch 2.5+（CPU 版本即可） - 2 个 CPU 核心即可运行

## 注意事项

- ⚠️ 模型受访问限制 - 需先在 Hugging Face 上接受许可协议 - 🌍 目前仅支持英语（v1 版本） - 💾 首次运行会下载模型（约 100M 参数） - 🔊 音频以 1D torch 张量形式返回（PCM 数据）

## 相关链接

- [演示](https://kyutai.org/tts) - [GitHub](https://github.com/kyutai-labs/pocket-tts) - [Hugging Face](https://huggingface.co/kyutai/pocket-tts) - [论文](https://arxiv.org/abs/2509.06926)

介绍

更多产品

self-improving-agent

Find Skills

Sonoscli