手把手教你部署Voice Sculptor语音合成WebUI并生成专属音频
1. 环境准备与镜像部署
1.1 镜像简介
本文将详细介绍如何部署Voice Sculptor—— 一款基于 LLaSA 和 CosyVoice2 的指令化语音合成模型,由开发者“科哥”进行二次开发构建的 WebUI 版本。该工具支持通过自然语言描述定制音色风格,适用于儿童故事、情感电台、广告配音、ASMR 助眠等多种场景。
镜像名称:Voice Sculptor捏声音基于LLaSA和CosyVoice2的指令化语音合成语音模型 二次开发构建by科哥
核心特性: - 支持中文语音合成 - 提供18种预设声音风格(角色/职业/特殊) - 可通过自然语言指令自定义音色 - 支持细粒度参数调节(年龄、性别、语速、情感等) - 输出3个候选音频供选择
1.2 部署环境要求
| 项目 | 推荐配置 |
|---|---|
| 操作系统 | Ubuntu 20.04 或以上 |
| GPU 显存 | ≥ 8GB(建议 NVIDIA A10/A100/V100) |
| 内存 | ≥ 16GB |
| 存储空间 | ≥ 20GB(含模型缓存) |
| Python 环境 | 已集成在镜像中 |
注意:若显存不足,可能出现
CUDA out of memory错误,需清理进程或升级硬件。
1.3 启动镜像实例
在平台中搜索镜像:
Voice Sculptor捏声音基于LLaSA和CosyVoice2的指令化语音合成语音模型 二次开发构建by科哥创建并启动容器实例。
进入终端执行启动脚本:
/bin/bash /root/run.sh成功运行后,终端会输出如下信息:
Running on local URL: http://0.0.0.0:78601.4 访问 WebUI 界面
打开浏览器,访问以下地址之一:
- 本地运行:http://127.0.0.1:7860
- 远程服务器:
http://<你的IP>:7860
若无法访问,请检查防火墙设置及端口映射是否正确开放 7860 端口。
如需重启服务,再次执行/bin/bash /root/run.sh即可,脚本会自动终止旧进程并释放 GPU 显存。
2. WebUI 界面功能详解
2.1 整体布局结构
Voice Sculptor WebUI 分为左右两大区域:
- 左侧:音色设计面板(输入控制区)
- 右侧:音频生成结果展示区
主要组件说明:
| 区域 | 组件 | 功能 |
|---|---|---|
| 左侧 | 风格分类 | 选择大类:角色 / 职业 / 特殊 |
| 指令风格 | 选择具体模板或“自定义” | |
| 指令文本 | 描述目标音色特征(≤200字) | |
| 待合成文本 | 输入要朗读的文字内容(≥5字) | |
| 细粒度控制 | 可选展开,精确调节音色参数 | |
| 右侧 | 生成音频按钮 | 点击开始合成 |
| 音频播放器 | 显示3个生成结果,支持试听与下载 |
3. 使用流程详解
3.1 方式一:使用预设模板(推荐新手)
适合快速体验和基础应用。
操作步骤:
- 选择风格分类
- 点击“风格分类”下拉框
例如选择:“角色风格”
选择具体指令风格
- 在“指令风格”中选择一个模板
例如:“幼儿园女教师”
查看自动填充内容
- “指令文本”将自动填入:
这是一位幼儿园女教师,用甜美明亮的嗓音,以极慢且富有耐心的语速,带着温柔鼓励的情感... “待合成文本”也会填充示例句子
修改文本(可选)
- 修改“待合成文本”为你想说的话
如:“小兔子乖乖,把门开开,快点开开,我要进来。”
点击“🎧 生成音频”
- 等待约 10–15 秒
页面右侧出现三个音频播放器
试听并下载
- 逐一试听不同版本
- 点击下载图标保存满意的结果
小贴士:每次生成都有轻微随机性,建议多试几次挑选最佳效果。
3.2 方式二:完全自定义音色
适合有特定需求的专业用户。
操作流程:
- 任意选择一个“风格分类”
- 在“指令风格”中选择“自定义”
- 手动填写“指令文本”,参考以下结构:
[人物身份],用[音质特点]的嗓音,以[语速节奏]的方式,表达[情绪氛围],适合[应用场景]。示例:
一位年轻女性冥想引导师,用空灵悠长的气声,以极慢而飘渺的语速,配合呼吸节奏轻声细语,营造禅意放松的空间感。- 填写“待合成文本”:
现在闭上眼睛,深呼吸一次。吸气……呼气……让身体一点点沉下去,像羽毛落在湖面。- (可选)展开“细粒度声音控制”进行微调:
- 年龄:青年
- 性别:女性
- 语速:很慢
情感:平静
点击“生成音频”,等待结果。
⚠️ 注意:细粒度参数应与指令文本一致,避免冲突(如指令写“低沉”,却选“音调很高”)。
4. 声音风格与指令编写技巧
4.1 内置18种声音风格概览
| 类别 | 数量 | 典型风格 |
|---|---|---|
| 角色风格 | 9 | 幼儿园老师、老奶奶、小女孩、御姐、评书演员等 |
| 职业风格 | 7 | 新闻主播、相声演员、纪录片旁白、法治节目主持人等 |
| 特殊风格 | 2 | 冥想引导师、ASMR耳语 |
每种风格均配有详细的提示词模板和示例文本,可在 声音风格参考手册 中查阅完整内容。
4.2 如何写出高质量的指令文本
✅ 优秀指令示例分析
这是一位男性评书表演者,用传统说唱腔调,以变速节奏和韵律感极强的语速讲述江湖故事,音量时高时低,充满江湖气。优点解析:-人设明确:男性评书表演者 -音色具体:传统说唱腔调 -节奏清晰:变速、韵律感强 -情绪到位:江湖气 -维度完整:覆盖人设 + 音质 + 节奏 + 情绪
❌ 不合格指令示例
声音很好听,很不错的风格。问题所在:- “好听”“不错”为主观评价,无法量化 - 缺乏具体声音特征描述 - 无人设、无场景、无技术参数
4.3 指令编写五项原则
| 原则 | 说明 |
|---|---|
| 具体 | 使用可感知词汇:低沉/清脆/沙哑/明亮、快/慢、大/小 |
| 完整 | 覆盖 3–4 个维度:人设+性别/年龄+音调/语速+情绪 |
| 客观 | 描述声音本身,避免“我喜欢”“很棒”等主观词 |
| 不模仿 | 禁止“像某某明星”,只描述特质 |
| 精炼 | 每个词都传递信息,避免重复强调(如“非常非常”) |
4.4 细粒度控制参数说明
| 参数 | 可选项 | 作用说明 |
|---|---|---|
| 年龄 | 不指定 / 小孩 / 青年 / 中年 / 老年 | 控制说话者的年龄感 |
| 性别 | 不指定 / 男性 / 女性 | 设定基础性别音色 |
| 音调高度 | 音调很高 → 很低 | 调整基频高低 |
| 音调变化 | 变化很强 → 很弱 | 控制语调起伏程度 |
| 音量 | 音量很大 → 很小 | 调节整体响度 |
| 语速 | 语速很快 → 很慢 | 影响单位时间发音数量 |
| 情感 | 开心 / 生气 / 难过 / 惊讶 / 厌恶 / 害怕 | 注入情绪色彩 |
建议:大多数情况下保持“不指定”,仅在需要微调时启用。
5. 常见问题与解决方案
5.1 Q&A 汇总
| 问题 | 解答 |
|---|---|
| Q1:生成音频需要多久? | 一般 10–15 秒,取决于文本长度和 GPU 性能 |
| Q2:为什么每次生成的声音不一样? | 模型具有一定的随机性,属于正常现象,建议多生成几次选最优 |
| Q3:音频质量不满意怎么办? | 优化指令文本,确保描述准确;检查细粒度参数是否矛盾 |
| Q4:最多支持多长文本? | 单次建议不超过 200 字,超长内容请分段合成 |
| Q5:支持英文吗? | 当前版本仅支持中文,英文正在开发中 |
| Q6:生成的音频保存在哪里? | 自动保存至outputs/目录,按时间戳命名,包含3个音频文件和 metadata.json |
| Q7:提示 CUDA out of memory 怎么办? | 执行清理命令释放显存(见下文) |
| Q8:端口被占用怎么办? | 启动脚本会自动处理,也可手动终止占用进程 |
5.2 显存清理命令(CUDA Out of Memory)
当遇到显存溢出错误时,执行以下命令:
# 终止所有 Python 进程 pkill -9 python # 清理 NVIDIA 设备占用 fuser -k /dev/nvidia* # 等待3秒 sleep 3 # 查看显存状态 nvidia-smi完成后重新运行/bin/bash /root/run.sh即可。
5.3 手动解决端口占用
若 7860 端口被占用,可手动释放:
# 查找占用7860端口的进程 lsof -i :7860 # 终止相关进程 lsof -ti:7860 | xargs kill -9 # 等待2秒后重启 sleep 26. 实践技巧与最佳实践
6.1 快速试错策略
不要期望一次就生成完美音频。建议采用“迭代式调试”:
- 先用预设模板生成基础效果
- 微调指令文本,观察变化
- 启用细粒度控制进一步优化
- 多生成几次,选出最满意的一版
6.2 组合使用建议
推荐三步法提升效率:
- 定位风格:使用预设模板快速确定大致方向
- 个性化调整:修改指令文本加入个性描述
- 精细打磨:启用细粒度控制微调关键参数
6.3 配置复现与保存
生成满意结果后,务必记录以下信息以便复现:
- 指令文本内容
- 细粒度控制参数
metadata.json文件(含生成时间、模型版本、参数快照)
可通过导出outputs/<timestamp>/metadata.json实现配置持久化。
7. 总结
Voice Sculptor 是一款功能强大且易于使用的指令化中文语音合成工具,结合了 LLaSA 和 CosyVoice2 的先进技术,支持通过自然语言精准控制音色风格。无论是用于内容创作、教育讲解、助眠冥想还是角色配音,都能提供高质量的语音输出。
本文详细介绍了从镜像部署、界面使用、指令编写到问题排查的全流程,并提供了实用技巧帮助用户高效产出理想音频。
通过合理运用预设模板与自定义指令相结合的方式,配合细粒度参数调节,你完全可以打造出独一无二的“专属声音”。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。