ClawSkills logoClawSkills

audio-cog

由 CellCog 驱动的 AI 音频生成。文本转语音、语音合成、配音、播客音频、旁白、音乐生成、背景音乐和音效设计。

介绍

# Audio Cog - AI Audio Generation Powered by CellCog

利用 AI 创作专业音频——从旁白和解说到背景音乐和音效设计。

---

## 先决条件

此技能需要 `cellcog` 技能来进行 SDK 设置和 API 调用。

```bash clawhub install cellcog ```

**请先阅读 cellcog 技能**以了解 SDK 设置。本技能将向您展示其可实现的功能。

**快速模式 (v1.0+):** ```python # Fire-and-forget - returns immediately result = client.create_chat( prompt="[your audio request]", notify_session_key="agent:main:main", task_label="audio-task", chat_mode="agent" # Agent mode is optimal for all audio tasks ) # Daemon notifies you when complete - do NOT poll ```

---

## 您可以创建的音频

### 文本转语音 / 旁白

将文本转换为自然的语音:

- **解说**:“为此产品视频脚本生成专业的男声旁白” - **有声读物风格**:“以富有情感的演绎创作这篇短故事的精彩解说” - **播客开场**:“生成热情友好的播客开场:‘欢迎收听 The Daily Tech……’” - **电子学习**:“为该培训模块创建清晰、指导性的旁白” - **IVR/电话系统**:“生成专业的电话菜单提示”

---

## 可用语音

CellCog 提供 8 个具有鲜明特征的高质量语音:

| 语音 | 性别 | 最适合 | 特征 | |-------|--------|----------|-----------------| | **cedar** | 男性 | 产品视频、公告 | 温暖、共鸣、权威、值得信赖 | | **marin** | 女性 | 专业内容、教程 | 明亮、清晰、情感表达灵活 | | **ballad** | 男性 | 讲故事、流畅的叙事 | 平滑、旋律感、音乐质感 | | **coral** | 女性 | 充满活力的内容、广告 | 充满活力、生动、动态、精神饱满 | | **echo** | 男性 | 深思内容、纪录片 | 冷静、沉稳、从容 | | **sage** | 女性 | 教育、知识内容 | 睿智、沉思、反思 | | **shimmer** | 女性 | 温和内容、健康 | 轻柔、温和、抚慰、亲切 | | **verse** | 男性 | 创意、艺术内容 | 诗意、节奏感强、富有表现力 |

### 按用例推荐的语音

**对于产品视频和公告:** > 使用 **cedar** (男声) 或 **marin** (女声) —— 两者都能传递自信和专业感。

**对于讲故事和有声读物:** > 使用 **ballad** (男声) 或 **sage** (女声) —— 专为引人入胜、流畅的叙事而设计。

**对于高能量内容:** > 使用 **coral** (女声) —— 充满活力和动感,非常适合广告和激动人心的公告。

**对于平静、教育内容:** > 使用 **echo** (男声) 或 **shimmer** (女声) —— 适度的节奏非常适合学习。

### 语音风格自定义

除了选择语音外,您还可以通过风格指令微调演绎效果:

- **口音与方言**:美式、英式、澳式、印式等。 - **情感范围**:兴奋、严肃、温暖、神秘、戏剧性。 - **节奏**:缓慢且从容、对话式、快速且充满活力。 - **特殊效果**:耳语、角色模仿。

**包含风格指令的示例:** > “使用 cedar 语音生成旁白,采用温暖、对话式的语调。以中等语速说话,在提及功能时略带热情。美式口音。”

---

## 音乐生成

创作原创背景音乐和音轨:

- **背景音乐**:“为学习视频创作平静的 lo-fi 背景音乐,时长 2 分钟” - **播客音乐**:“为科技播客生成欢快的开场短曲,时长 15 秒” - **视频音轨**:“为产品发布视频创作电影管弦乐” - **环境/氛围**:“为冥想应用生成宁静的环境音效” - **特定流派**:“为健身视频创作充满活力的电子音乐”

### 音乐规格

| 参数 | 选项 | |-----------|---------| | **时长** | 15 秒至 5 分钟以上 | | **流派** | 电子、摇滚、古典、爵士、环境、lo-fi、电影感、流行、嘻哈 | | **速度** | 60 BPM (慢) 至 180+ BPM (快) | | **情绪** | 欢快、平静、戏剧性、神秘、鼓舞人心、忧郁 | | **乐器** | 钢琴、吉他、合成器、弦乐、鼓、铜管乐器等 |

### 音乐授权

**来自 CellCog 的所有 AI 生成音乐均为免版税,且完全归您用于商业用途。**

您拥有使用生成音乐的完整权利,用于: - YouTube 视频(包括变现内容) - 商业项目和广告 - 播客和流媒体 - 应用和游戏 - 任何其他商业或个人用途

无需署名。无授权费。音乐是为您独家生成的。

---

## 音频输出格式

| 格式 | 最适合 | |--------|----------| | **MP3** | 标准音频交付、旁白、音乐 | | 与视频结合 | video-cog 输出的背景音乐 |

---

## 音频的聊天模式

**对所有音频生成任务使用 `chat_mode="agent"`。**

音频生成——无论是旁白、音乐还是音效设计——在代理模式下都能高效执行。CellCog 的音频功能不需要多角度的深思熟虑;它们需要精确的执行,而这正是代理模式所擅长的。

在代理团队模式下,没有任何场景能提供明显更好的音频输出。将代理团队留给受益于多次推理环节的研究和复杂的创意工作。

---

## 示例音频提示词

**使用特定语音的专业旁白:** > “使用 **marin** 语音为此脚本生成专业的旁白: > > ‘介绍 TaskFlow —— 这是一款真正好用的项目管理工具。凭借智能自动化、无缝协作和强大的分析功能,TaskFlow 帮助团队发挥最佳水平。’ > > 风格:自信且友好,中等语速。适合产品发布视频。”

**带有语音选择的播客开场:** > “使用 **cedar** 语音创建播客开场旁白: > > ‘欢迎收听《未来向前》,这是一档探索塑造明日技术的播客。我是您的主持人,今天我们将深入探讨……’ > > 风格:温暖且引人入胜,对话式语调。同时生成一段 10 秒钟的欢快开场音乐垫作为背景。”

**背景音乐:** > “生成 2 分钟平静的 lo-fi 嘻哈风格背景音乐。应该轻松且不引人注目,适合学习或工作。包含柔和的钢琴、舒缓的节拍和轻微的黑胶爆裂声。75 BPM。”

**有声读物解说:** > “使用 **ballad** 语音为这段文字创建有声读物风格的解说: > > [文字段落] > > 风格:温暖的讲故事的质感,适度的节奏,带有适当的戏剧性停顿。”

**电影音乐:** > “为科技公司的‘关于我们’视频生成 90 秒的电影管弦乐。开头柔和且鼓舞人心,逐渐建立至自信的高潮,最后以充满希望的结尾收尾。”

---

## 多语言支持

CellCog 可以生成 50 多种语言的语音:

- 英语(多种口音) - 西班牙语、法语、德语、意大利语、葡萄牙语 - 中文(普通话、粤语) - 日语、韩语 - 印地语、阿拉伯语 - 俄语、波兰语、荷兰语 - 以及更多

在您的提示词中指定语言: > “使用 shimmer 语音以母语女声生成这段日语文本:‘いらっしゃいませ……’”

---

## 获得更好音频的技巧

1. **选择正确的语音**:将语音与您的内容类型相匹配。Cedar/marin 用于专业内容,ballad/sage 用于讲故事,coral 用于充满活力的内容。

2. **提供完整的脚本**:不要说“关于我们产品的内容”——要确切写出应该说的话。

3. **包含风格指令**:“自信但温暖”、“缓慢且从容”、“带有轻微的兴奋感”有助于塑造演绎效果。

4. **对于音乐**:指定时长、速度(如果知道的话请写 BPM)、情绪和流派。

5. **发音指导**:对于名称或技术术语,添加提示:“CellCog (发音为 SELL-kog)”

6. **情感节奏**:对于较长的旁白,标明语调转换:“[兴奋] 现在来看看大揭秘……[严肃] 但这有个陷阱。”

更多产品