南充市网站建设_网站建设公司_改版升级_seo优化
2026/1/17 5:28:42 网站建设 项目流程

FunASR WebUI 使用指南:支持实时录音与多格式导出

1. 快速开始

1.1 访问方式

启动服务后,可通过以下地址访问 FunASR WebUI 界面:

  • 本地访问

    http://localhost:7860
  • 远程访问(适用于服务器部署):

    http://<服务器IP>:7860

确保端口7860在防火墙或安全组中已开放,方可从外部网络访问。


2. 界面功能详解

2.1 头部信息区域

界面顶部展示核心标识信息:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权说明:webUI 二次开发 by 科哥 | 微信:312088415

该部分为固定展示内容,便于用户确认当前使用的是官方维护版本。

2.2 控制面板(左侧栏)

2.2.1 模型选择

提供两种主流 ASR 模型供切换使用:

  • Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景(可选)
  • SenseVoice-Small:轻量级模型,默认启用,响应速度快,适合实时交互和低延迟需求

建议在 GPU 资源充足时优先选用 Paraformer-Large;若追求速度或仅用于测试,推荐 SenseVoice-Small。

2.2.2 设备运行模式
  • CUDA:利用 NVIDIA 显卡进行推理加速,显著提升处理效率(有 GPU 时自动选中)
  • CPU:纯 CPU 推理模式,兼容无独立显卡环境,但性能较低

若未检测到 CUDA 支持,请手动切换至 CPU 模式以避免加载失败。

2.2.3 功能开关配置

三项关键增强功能可自由启停:

  • 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升可读性
  • 启用语音活动检测 (VAD):智能分割音频流中的有效语音段,过滤静音与噪声
  • 输出时间戳:在结果中标注每句话的起止时间,便于后期编辑与同步

开启 VAD 和 PUNC 可大幅提升长音频处理体验,尤其适用于会议记录、访谈转录等场景。

2.2.4 模型状态显示

实时反馈当前模型加载情况:

  • ✅ “模型已加载” 表示准备就绪,可开始识别
  • ❌ “模型未加载” 需点击“加载模型”按钮重新初始化
2.2.5 操作控制按钮
  • 加载模型:手动触发模型加载或重载,适用于更换模型/设备后刷新状态
  • 刷新:更新界面状态信息,检查最新运行状态

3. 核心使用流程

3.1 方式一:上传音频文件识别

3.1.1 支持的音频格式

系统支持多种常见音频编码格式,包括:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐使用16kHz 采样率的单声道音频,符合大多数 ASR 模型输入标准,有助于提高识别准确率。

3.1.2 文件上传步骤
  1. 进入主界面的ASR 语音识别模块
  2. 点击“上传音频”按钮
  3. 从本地选择目标音频文件
  4. 等待上传完成(进度条提示)
3.1.3 参数设置

上传完成后需配置以下参数:

参数项可选项说明
批量大小(秒)60 - 600 秒(默认 300)控制每次处理的最大音频长度,建议不超过 5 分钟
识别语言auto,zh,en,yue,ja,ko自动检测或指定语种,混合语言建议选auto

对于粤语、日语、韩语内容,请明确选择对应语言以获得最佳识别效果。

3.1.4 开始识别

点击“开始识别”按钮,系统将调用选定模型进行推理。处理时间取决于音频长度、模型类型及硬件性能。

3.1.5 查看识别结果

识别完成后,结果分三个标签页呈现:

文本结果
  • 展示最终生成的纯文本内容
  • 支持一键复制,方便后续使用
详细信息
  • 输出完整的 JSON 结构数据
  • 包含每个词的时间戳、置信度、语言标签等元信息
时间戳
  • 列出每一句的起止时间与持续时长
  • 格式示例:[001] 0.000s - 2.500s (时长: 2.500s)

3.2 方式二:浏览器实时录音识别

3.2.1 启动录音
  1. 点击“麦克风录音”按钮
  2. 浏览器弹出权限请求时,点击“允许”授予权限

首次使用需手动授权麦克风访问权限,后续将记忆设置。

3.2.2 录音操作
  • 开始说话即可录制
  • 点击“停止录音”结束采集

系统会自动保存临时录音文件并显示波形预览。

3.2.3 执行识别

与上传文件一致,点击“开始识别”即可处理刚录制的语音。

3.2.4 结果查看

结果展示方式同上传文件模式,支持文本、JSON 和时间戳三种视图。

实时录音功能非常适合快速验证模型效果、制作字幕草稿或即时笔记记录。


4. 识别结果导出与管理

4.1 多格式下载支持

识别完成后,可通过三个按钮下载不同格式的结果:

下载按钮输出格式典型用途
下载文本.txt纯文本存档、导入文档编辑器
下载 JSON.json程序解析、二次开发接口对接
下载 SRT.srt视频字幕嵌入、剪辑软件导入

SRT 字幕文件广泛兼容各类播放器(如 VLC、PotPlayer)和视频编辑工具(Premiere、Final Cut Pro),是视频创作者的理想选择。

4.2 输出目录结构

所有识别输出统一保存在本地outputs/目录下,按时间戳命名子文件夹:

outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(含时间戳) ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件

每次识别均创建独立目录,防止文件覆盖,便于归档管理。


5. 高级功能配置

5.1 批量大小调节

  • 默认值:300 秒(5 分钟)
  • 可调范围:60 ~ 600 秒
  • 作用机制:控制单次推理的最大音频片段长度

对于超过限制的长音频,系统会自动分段处理并合并结果。适当减小批量大小可降低内存占用,提升稳定性。

5.2 语言识别策略

合理选择语言模式能显著影响识别质量:

场景推荐设置
纯中文内容zh
英文演讲/课程en
中英混合对话auto
粤语节目/采访yue
日语动画/访谈ja
韩语综艺/播客ko

当不确定语种时,使用auto模式由系统自动判断,虽略有延迟但适应性强。

5.3 时间戳应用价值

开启“输出时间戳”后,可用于:

  • 视频剪辑定位关键片段
  • 自动生成带时间索引的会议纪要
  • 构建语音标注数据集
  • 实现点击字幕跳转播放(Web 播放器集成)

6. 典型输出示例

6.1 纯文本输出

你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

简洁明了,适合直接粘贴至 Word、Notion 或其他办公软件。

6.2 SRT 字幕输出

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

标准 SRT 格式,可直接拖入视频编辑软件生成外挂字幕。

6.3 时间戳信息展示

时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

精确到毫秒级的时间标记,满足专业级音频分析需求。


7. 常见问题与解决方案

7.1 Q1:识别结果不准确怎么办?

排查与优化建议

  1. 确认是否选择了正确的语言模式(如中文应选zh
  2. 检查原始音频质量,避免背景噪音过大或人声过低
  3. 尝试调整录音音量增益
  4. 如存在明显噪声,建议先使用降噪工具预处理音频

提示:清晰发音、适中语速、减少口音差异有助于提升识别率。


7.2 Q2:识别速度慢如何解决?

可能原因分析

  • 正在使用 CPU 模式运行
  • 音频文件过长导致一次性处理压力大
  • 模型本身较重(如 Paraformer-Large)

应对措施

  1. 确保设备选择为CUDA(GPU 加速)
  2. 将长音频拆分为小于 5 分钟的片段分别处理
  3. 切换至SenseVoice-Small模型以换取更快响应

7.3 Q3:无法上传音频文件?

检查清单

  • 文件扩展名是否在支持列表内(WAV/MP3/M4A/FLAC/OGG/PCM)
  • 文件大小是否过大(建议控制在 100MB 以内)
  • 浏览器是否存在兼容性问题(推荐 Chrome/Firefox 最新版)

若仍无法上传,请尝试转换为 WAV 格式后再试。


7.4 Q4:录音没有声音?

故障排查步骤

  1. 确认浏览器已授予麦克风权限
  2. 检查操作系统音频设置,确认麦克风正常工作
  3. 测试系统自带录音工具能否采集声音
  4. 调整麦克风输入音量至合适水平

7.5 Q5:识别结果出现乱码?

解决方法

  1. 确保选择的语言与实际语音内容匹配
  2. 检查音频编码格式是否异常(如非标准 PCM 编码)
  3. 尝试将音频重新导出为标准 WAV 格式再上传

7.6 Q6:如何进一步提升识别准确率?

综合优化建议

  1. 使用16kHz 采样率、单声道的高质量音频
  2. 尽量在安静环境中录制,减少背景干扰
  3. 发音清晰、语速平稳,避免吞音或过快表达
  4. 根据内容特点选择最匹配的识别语言
  5. 启用VAD + PUNC组合功能,提升上下文连贯性

8. 服务管理与退出

8.1 停止 WebUI 服务

在终端中执行以下任一操作即可终止服务:

  • 快捷键中断:

    Ctrl + C
  • 强制结束进程(Linux/macOS):

    pkill -f "python.*app.main"

建议正常关闭以释放资源,避免残留进程占用显存。


9. 快捷操作参考

操作快捷键
停止服务Ctrl + C
刷新页面F5 或 Ctrl + R
复制文本Ctrl + C
粘贴音频路径Ctrl + V(部分浏览器支持)

10. 技术支持与反馈

  • 开发者:科哥
  • 联系方式:微信:312088415
  • 问题反馈要求:请提供完整操作步骤、错误截图及日志信息,以便快速定位问题

本项目承诺永久开源免费使用,请保留原始版权信息。


11. 更新日志

v1.0.0 (2026-01-04)

  • ✅ 首次正式发布
  • ✅ 支持中文语音识别(zh)
  • ✅ 兼容多格式音频输入(WAV/MP3/M4A/FLAC/OGG/PCM)
  • ✅ 集成浏览器端实时录音功能
  • ✅ 支持 TXT/JSON/SRT 多格式导出
  • ✅ 采用紫蓝渐变主题 UI 设计,提升视觉体验

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询