一键部署中文语音识别|FunASR WebUI镜像使用全解析
1. 快速开始与访问方式
1.1 镜像简介
FunASR 是一个功能强大的开源语音识别工具包,支持多种语言和场景下的语音转文字任务。本文介绍的FunASR 语音识别 WebUI 镜像是基于speech_ngram_lm_zh-cn模型进行二次开发构建的版本,由开发者“科哥”优化并封装为可一键部署的 Docker 镜像。
该镜像集成了 Paraformer-Large 和 SenseVoice-Small 等主流 ASR 模型,支持标点恢复、语音活动检测(VAD)、时间戳输出等功能,并提供直观的 Web 界面操作,极大降低了中文语音识别的技术门槛。
1.2 启动服务与访问地址
在完成镜像拉取并成功运行容器后,可通过以下地址访问 WebUI 界面:
http://localhost:7860若需从远程设备访问,请将localhost替换为服务器的实际 IP 地址:
http://<服务器IP>:7860例如:
http://192.168.1.100:7860确保防火墙或安全组已开放 7860 端口,否则无法正常访问。
2. WebUI 界面详解
2.1 头部信息区域
页面顶部显示了系统的基本信息:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
此部分为固定展示内容,帮助用户确认当前使用的版本来源。
2.2 控制面板(左侧功能区)
控制面板位于界面左侧,包含模型选择、设备配置、功能开关等核心设置项。
2.2.1 模型选择
支持两种主流识别模型切换:
- Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景(如会议记录、字幕生成)
- SenseVoice-Small:轻量级模型,响应速度快,适合实时性要求较高的应用(如在线对话转录)
默认启用的是SenseVoice-Small模型,兼顾速度与效果。
2.2.2 设备选择
根据硬件环境选择推理设备:
- CUDA:使用 GPU 加速推理,显著提升处理速度,推荐有 NVIDIA 显卡的用户使用
- CPU:纯 CPU 推理模式,适用于无独立显卡的设备,性能相对较低但兼容性强
系统会自动检测是否存在可用 GPU,若有则默认选中 CUDA 模式。
2.2.3 功能开关
三个关键功能可通过复选框开启或关闭:
- 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升文本可读性
- 启用语音活动检测 (VAD):自动分割音频中的静音段,仅识别有效语音部分,避免无效内容干扰
- 输出时间戳:在结果中附加每个词或句子的时间区间,便于后期编辑或字幕制作
建议在生成字幕或需要精确定位时开启全部功能。
2.2.4 模型状态与操作按钮
模型状态指示:
- ✓ 表示模型已成功加载
- ✗ 表示模型未加载或加载失败
操作按钮:
- 加载模型:手动触发模型加载或重新加载,可用于更换模型或修复加载异常
- 刷新:更新当前状态信息,查看最新资源占用情况
3. 使用流程详解
3.1 方式一:上传音频文件识别
3.1.1 支持的音频格式
系统支持多种常见音频格式输入,包括:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐使用16kHz 采样率的单声道音频文件以获得最佳识别效果。
3.1.2 文件上传步骤
- 在主界面找到 “ASR 语音识别” 区域
- 点击“上传音频”按钮
- 从本地选择符合格式的音频文件
- 等待上传完成(进度条提示)
3.1.3 参数配置
上传完成后,需设置以下参数:
- 批量大小(秒):默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。可调范围为 60–600 秒。
- 识别语言:支持多语种识别,选项如下:
auto:自动检测语言(推荐用于混合语种)zh:中文en:英文yue:粤语ja:日语ko:韩语
对于中文内容,建议明确选择zh以提高识别准确率。
3.1.4 开始识别与结果查看
点击“开始识别”按钮,系统将启动推理流程。处理时间取决于音频长度、模型类型和设备性能。
识别完成后,结果将在下方以三个标签页形式呈现:
| 标签页 | 内容说明 |
|---|---|
| 文本结果 | 显示最终识别出的纯文本,支持复制粘贴 |
| 详细信息 | JSON 格式数据,包含置信度、时间戳等元信息 |
| 时间戳 | 列出每句话的起止时间和持续时长,格式为[序号] 开始时间 - 结束时间 (时长) |
3.2 方式二:浏览器实时录音识别
3.2.1 录音准备
点击“麦克风录音”按钮,浏览器将弹出权限请求窗口。请允许访问麦克风设备。
注意:部分浏览器(如 Safari)可能不完全支持 Web Audio API,建议使用 Chrome 或 Edge 浏览器。
3.2.2 开始与停止录音
- 点击按钮开始录音,系统进入录制状态
- 对着麦克风清晰发音
- 点击“停止录音”结束录制
录音结束后,音频将自动上传至服务端。
3.2.3 启动识别与查看结果
与上传文件流程一致,点击“开始识别”即可获取转录结果。结果展示方式相同,支持文本、JSON 和 SRT 字幕导出。
4. 结果下载与文件管理
4.1 下载功能说明
识别完成后,可通过三个下载按钮获取不同格式的结果文件:
| 按钮 | 输出格式 | 适用场景 |
|---|---|---|
| 下载文本 | .txt | 纯文本提取,适合文档整理 |
| 下载 JSON | .json | 开发调试、结构化分析 |
| 下载 SRT | .srt | 视频字幕嵌入、剪辑定位 |
所有文件均打包为 ZIP 压缩包供下载。
4.2 输出目录结构
系统会在容器内创建带时间戳的输出目录,路径如下:
outputs/outputs_YYYYMMDDHHMMSS/例如:
outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件每次识别都会生成独立目录,防止文件覆盖,便于归档管理。
5. 高级功能配置指南
5.1 批量大小调整策略
- 短音频(<1分钟):保持默认 300 秒即可
- 长音频(>10分钟):建议分段处理,每段不超过 5 分钟,避免内存溢出
- 流式处理需求:可设为较小值(如 60 秒),实现近实时识别
批量大小影响内存占用和响应延迟,应根据实际资源合理设置。
5.2 语言识别优化建议
正确设置语言参数是提升识别准确率的关键:
| 场景 | 推荐设置 |
|---|---|
| 全中文内容 | zh |
| 中英混合内容 | auto |
| 粤语口语 | yue |
| 日语讲座录音 | ja |
| 多语种访谈 | auto+ 后期人工校正 |
当使用auto模式时,系统会尝试判断主要语言,但在强口音或低质量音频下可能出现误判。
5.3 时间戳应用场景
启用输出时间戳后,系统将返回每个词汇或语句的时间区间,典型用途包括:
- 视频字幕同步:配合
.srt文件实现精准字幕对齐 - 语音内容剪辑:快速定位某句话的起止位置,辅助音频编辑
- 教学材料标注:标记重点讲解时段,方便回看复习
时间戳精度可达毫秒级,满足专业级应用需求。
6. 常见问题与解决方案
6.1 识别结果不准确
可能原因及对策:
- 语言设置错误→ 更改为正确的语言选项(如
zh) - 音频质量差→ 使用降噪软件预处理,或重录清晰音频
- 背景噪音大→ 启用 VAD 并尽量在安静环境中录音
- 发音模糊或语速过快→ 调整语速,清晰吐字
建议优先使用高质量录音设备采集原始音频。
6.2 识别速度慢
排查方向:
- 是否使用 CPU 模式?→ 若有 GPU,请切换至 CUDA 模式
- 音频过长?→ 分割为多个 3–5 分钟片段分别处理
- 模型过大?→ 尝试改用 SenseVoice-Small 模型加快响应
GPU 可使推理速度提升 3–5 倍以上,强烈推荐配备 NVIDIA 显卡运行。
6.3 无法上传音频文件
检查清单:
- ✅ 文件格式是否在支持列表中(WAV/MP3/M4A/FLAC/OGG/PCM)
- ✅ 文件大小是否超过限制(建议 < 100MB)
- ✅ 浏览器是否阻止了文件上传行为(尝试更换 Chrome 浏览器)
大文件建议先压缩或转换格式后再上传。
6.4 实时录音无声
故障排查:
- 🔊 浏览器是否已授权麦克风权限?
- 🎤 系统麦克风是否正常工作?可在其他应用中测试
- 🔊 麦克风输入音量是否被静音或调至最低?
可在操作系统声音设置中验证麦克风输入电平。
6.5 输出结果含乱码
解决方法:
- 确认语言设置正确(如中文不应设为
en) - 检查音频编码格式是否标准(推荐 PCM/WAV)
- 尝试重新导出音频为标准格式(如 16kHz, 16bit, mono)
非标准编码可能导致解码异常。
6.6 提高识别准确率的综合建议
| 方法 | 效果 |
|---|---|
| 使用 16kHz 采样率音频 | 提升模型匹配度 |
| 减少背景噪音 | 降低误识别率 |
| 清晰发音、适中语速 | 改善切音准确性 |
| 正确选择语言模式 | 避免语种错配 |
| 启用 PUNC 和 VAD | 增强语义完整性 |
结合上述措施,可使识别准确率达到 90% 以上。
7. 服务管理与退出方式
7.1 停止 WebUI 服务
在终端中运行服务的命令行界面,按下快捷键:
Ctrl + C即可安全终止服务进程。
若无法中断,可执行以下命令强制结束:
pkill -f "python.*app.main"该命令会查找并杀死所有包含python app.main的进程。
7.2 重启服务建议
修改配置或更换模型后,建议按以下顺序操作:
- 停止当前服务(Ctrl+C)
- 修改配置文件或替换模型文件
- 重新启动服务命令
- 访问 WebUI 确认新设置生效
8. 快捷键与技术支持
8.1 常用快捷键汇总
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C |
| 粘贴文本 | Ctrl + V |
这些快捷键可提升日常操作效率。
8.2 技术支持渠道
如遇技术问题,可通过以下方式联系开发者:
- 开发者:科哥
- 微信:312088415
- 问题反馈要求:请提供详细的错误截图、操作步骤和日志信息,以便快速定位问题
项目承诺永久开源使用,请保留原始版权信息。
9. 更新日志与未来展望
9.1 当前版本特性(v1.0.0 - 2026-01-04)
- ✅ 首次发布,集成完整 WebUI 功能
- ✅ 支持中文语音识别(基于 Paraformer 和 SenseVoice)
- ✅ 支持多种音频格式上传
- ✅ 支持浏览器端实时录音
- ✅ 支持 TXT/JSON/SRT 多格式导出
- ✅ 采用紫蓝渐变主题设计,界面美观易用
9.2 未来优化方向
- 支持更多小语种识别(如藏语、维吾尔语)
- 增加自定义热词功能(Hotword)
- 引入说话人分离(Speaker Diarization)
- 提供 RESTful API 接口供第三方调用
- 支持模型微调与个性化训练入口
随着社区贡献增加,功能将持续迭代升级。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。