海南藏族自治州网站建设_网站建设公司_SSG_seo优化
2026/1/16 3:55:18 网站建设 项目流程

FunASR WebUI使用全解析|支持实时录音与多格式导出

1. 引言

随着语音识别技术的快速发展,高效、易用的本地化语音转文字工具成为开发者和内容创作者的重要需求。FunASR 作为一款功能强大的开源语音识别工具包,凭借其高精度模型和灵活部署能力,在工业界和学术界均获得了广泛认可。

本文将围绕“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”这一镜像版本,全面解析其 WebUI 界面的功能特性与使用方法。该版本在原生 FunASR 基础上进行了深度优化,集成 Paraformer-Large 和 SenseVoice-Small 双模型支持,并提供直观的图形化操作界面,支持浏览器端实时录音识别多种格式结果导出(TXT、JSON、SRT),极大降低了语音识别技术的使用门槛。

通过本指南,您将掌握从环境访问到高级配置的完整流程,快速实现高质量中文语音识别应用落地。

2. 环境准备与访问方式

2.1 启动服务

确保已成功运行指定镜像后,系统会自动启动 WebUI 服务并监听默认端口。

2.2 访问地址

服务启动完成后,可通过以下方式访问 WebUI:

  • 本地访问:http://localhost:7860

  • 远程访问(需开放防火墙):http://<服务器IP>:7860

提示:首次加载可能需要较长时间,请耐心等待模型初始化完成。


3. WebUI 界面详解

3.1 头部信息区域

页面顶部展示核心标识信息: -标题:FunASR 语音识别 WebUI -描述:基于 FunASR 的中文语音识别系统 -版权说明:webUI二次开发 by 科哥 | 微信:312088415

此部分为固定信息,用于声明项目归属与技术支持渠道。

3.2 控制面板(左侧功能区)

3.2.1 模型选择

支持两种主流 ASR 模型切换:

模型名称特点推荐场景
Paraformer-Large高精度大模型,识别准确率更高对准确性要求高的正式任务
SenseVoice-Small轻量级小模型,响应速度快实时交互或资源受限环境

默认选中SenseVoice-Small,用户可根据实际需求手动切换。

3.2.2 设备选择

决定推理所使用的硬件资源:

  • CUDA:启用 GPU 加速,显著提升处理速度(推荐有显卡用户)
  • CPU:纯 CPU 模式运行,兼容无独立显卡设备

系统会在启动时自动检测可用 GPU 并优先选择 CUDA 模式。

3.2.3 功能开关

三个关键增强功能可自由启停:

  • 启用标点恢复 (PUNC)
    自动为识别文本添加逗号、句号等标点符号,提升可读性。

  • 启用语音活动检测 (VAD)
    自动分割连续音频中的有效语音段,过滤静音与噪音片段。

  • 输出时间戳
    在结果中包含每句话/词的时间起止信息,适用于字幕生成与音频剪辑定位。

3.2.4 模型状态指示

实时显示当前模型加载情况: - ✓模型已加载:绿色对勾表示模型就绪,可进行识别 - ✗模型未加载:红色叉号表示模型尚未加载或加载失败

3.2.5 操作按钮
  • 加载模型:手动触发模型加载或重新加载,适用于切换参数后刷新
  • 刷新:更新当前状态显示,检查模型是否正常运行

4. 使用流程详解

4.1 方式一:上传音频文件识别

适用于已有录音文件的批量处理任务。

4.1.1 支持的音频格式

系统支持主流音频编码格式,无需预转换即可直接上传:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

建议采样率:16kHz,以获得最佳识别效果。

4.1.2 文件上传步骤
  1. 进入 “ASR 语音识别” 区域
  2. 点击“上传音频”按钮
  3. 从本地选择目标音频文件
  4. 等待上传进度条完成
4.1.3 参数配置
  • 批量大小(秒)
    设置单次处理的最大音频长度,默认值为300秒(即 5 分钟)。
    可调范围:60 ~ 600 秒。超长音频将被自动分段处理。

  • 识别语言
    提供多语种识别选项,提升跨语言场景适应性:

选项说明
auto自动检测语言(推荐混合语种内容)
zh中文普通话
en英文
yue粤语
ja日语
ko韩语
4.1.4 开始识别

点击“开始识别”按钮,系统将根据所选模型与参数执行语音转写任务。处理时间取决于音频长度、模型类型及设备性能。

4.1.5 查看识别结果

识别完成后,结果将以标签页形式呈现于下方区域:

文本结果

显示最终生成的纯文本内容,支持一键复制,便于后续编辑使用。

详细信息

以 JSON 格式展示完整识别数据,包括: - 识别文本 - 时间戳区间 - 各片段置信度分数 - 语言类型(如启用多语种)

适合程序化处理或进一步分析。

时间戳

结构化展示每个句子或词语的起止时间,格式如下:

[序号] 开始时间 - 结束时间 (时长)

例如:

[001] 0.000s - 2.500s (时长: 2.500s)

常用于视频字幕同步或语音事件标注。


4.2 方式二:浏览器实时录音识别

适用于会议记录、即时听写等现场语音采集场景。

4.2.1 开启录音
  1. 点击“麦克风录音”按钮
  2. 浏览器弹出权限请求时,点击“允许”

若未出现提示,请检查浏览器设置中是否已禁用麦克风权限。

4.2.2 录制语音
  • 对准麦克风清晰发音
  • 支持持续录制,最长不限时长(受内存限制)
  • 点击“停止录音”结束录制

系统会自动保存录音为临时 WAV 文件并准备识别。

4.2.3 执行识别

点击“开始识别”按钮,其余流程与上传文件一致。

4.2.4 注意事项
  • 确保麦克风物理连接正常且驱动工作
  • 尽量在安静环境中录音,避免背景噪声干扰
  • 保持适当距离(建议 10~30cm),防止爆音或拾音不清

5. 结果下载与文件管理

识别完成后,系统支持三种常用格式导出,满足不同下游应用场景。

5.1 下载按钮功能说明

按钮输出格式典型用途
下载文本.txt纯文本存档、导入文档编辑器
下载 JSON.json数据分析、API 接口对接
下载 SRT.srt视频字幕嵌入、播放器加载

所有文件均为 UTF-8 编码,确保中文兼容性。

5.2 输出目录结构

每次识别操作都会创建一个独立的时间戳命名目录,路径如下:

outputs/outputs_YYYYMMDDHHMMSS/

示例目录内容:

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本(上传或录制) ├── result_001.json # 完整识别结果(含时间戳与置信度) ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件(可用于剪映、Premiere 等)

优势:按时间隔离输出,避免文件覆盖,方便归档追溯。


6. 高级功能配置建议

6.1 批量大小调整策略

场景推荐设置说明
短语音(<1分钟)60~120秒快速响应,减少延迟
会议录音(5~10分钟)300秒(默认)平衡效率与资源占用
长篇讲座/访谈(>10分钟)600秒最大限度减少分段次数

更大的批处理尺寸有助于上下文连贯性,但会增加内存消耗。

6.2 语言识别设置技巧

  • 单一语言内容 → 明确指定对应语言(如zh
  • 中英混合演讲 → 使用auto自动检测
  • 方言或特定口音 → 优先尝试zh+ VAD 开启
  • 多语种交替对话 →auto模式配合后期人工校对

6.3 时间戳应用场景

  • 视频制作:将.srt文件导入剪辑软件生成字幕轨
  • 教学资源:标记课程重点段落时间点,便于学生回看
  • 法律取证:精确记录语音证据中每一句话的发生时刻
  • 播客编辑:快速定位无效片段进行裁剪

7. 常见问题与解决方案

7.1 Q1:识别结果不准确怎么办?

解决方法:1. 检查并正确设置“识别语言”选项 2. 提升原始音频质量,尽量使用清晰录音 3. 调整录音音量至适中水平(避免过低或削峰) 4. 如存在明显背景噪音,建议先进行降噪预处理

7.2 Q2:识别速度慢如何优化?

排查方向:- 是否误用了 CPU 模式?请确认“设备选择”为 CUDA - 音频是否过长?建议分段处理超过 10 分钟的内容 - 当前模型是否为 Paraformer-Large?可临时切换至 SenseVoice-Small 测试性能差异

7.3 Q3:无法上传音频文件?

检查项:- 文件扩展名是否在支持列表内(推荐使用 MP3 或 WAV) - 文件体积是否过大(建议控制在 100MB 以内) - 浏览器是否存在兼容性问题(推荐 Chrome/Firefox)

7.4 Q4:录音没有声音?

排查步骤:1. 确认浏览器已授予麦克风权限 2. 检查操作系统音频设置中麦克风是否启用 3. 测试其他录音软件验证硬件是否正常工作 4. 调整系统麦克风增益(音量)至合理水平

7.5 Q5:识别结果出现乱码?

应对措施:- 确保选择了正确的识别语言(如中文应选zhauto) - 检查音频编码是否损坏,尝试重新导出为标准格式 - 更换不同来源的音频文件测试是否复现

7.6 Q6:如何提高整体识别准确率?

综合建议:1. 使用 16kHz 采样率的高质量音频输入 2. 减少环境背景噪音(可借助专业降噪工具) 3. 发音清晰、语速适中,避免吞音或过快表达 4. 正确配置语言模式,必要时开启标点恢复与 VAD


8. 退出与快捷操作

8.1 停止服务

在终端中按下组合键:

Ctrl + C

或执行命令强制终止进程:

pkill -f "python.*app.main"

8.2 快捷键汇总

操作快捷键
停止服务Ctrl + C
刷新页面F5 或 Ctrl + R
复制文本Ctrl + C(在结果区选中后)

9. 总结

本文系统介绍了“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”镜像版本的 WebUI 使用全流程。该工具不仅继承了 FunASR 强大的语音识别能力,还通过图形化界面大幅简化了操作复杂度,真正实现了“开箱即用”。

核心亮点总结如下: - ✅ 支持双模型切换(Paraformer-Large / SenseVoice-Small),兼顾精度与速度 - ✅ 提供浏览器端实时录音功能,无需额外录音工具 - ✅ 实现多格式结果导出(TXT、JSON、SRT),无缝对接各类应用场景 - ✅ 内置VAD 与 PUNC增强模块,提升识别结果可用性 - ✅ 输出文件自动按时间归档,便于管理和追溯

无论是个人笔记整理、会议纪要生成,还是视频字幕制作,该 WebUI 版本都能提供稳定高效的本地化语音识别解决方案。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询