FST ITN-ZH镜像核心功能揭秘|支持日期、时间、车牌号智能转换
1. 简介:什么是中文逆文本标准化(ITN)
在语音识别(ASR)系统广泛应用的今天,一个关键但常被忽视的环节是后处理阶段的文本规整能力。原始识别结果虽然“听得清”,却往往难以直接用于文档生成、数据分析或数据库录入。例如,“二零零八年八月八日”这样的表达虽符合口语习惯,但在正式文件中应写作“2008年08月08日”。
FST ITN-ZH 镜像正是为解决这一问题而生。它基于有限状态转换器(Finite State Transducer, FST)技术,实现了对中文口语化表达的逆文本标准化(Inverse Text Normalization, ITN),将非标准文本自动转换为规范化的书面格式。
该镜像由开发者“科哥”进行 WebUI 二次开发构建,提供了直观易用的操作界面,支持单条文本转换与批量处理两种模式,适用于会议纪要、客服录音分析、教育转录等多个场景。
2. 核心功能详解
2.1 日期标准化
系统能够准确识别并转换多种中文日期表达方式,统一为YYYY年MM月DD日的标准格式。
输入: 二零零八年八月八日 输出: 2008年08月08日 输入: 二零一九年九月十二日 输出: 2019年09月12日该功能特别适用于历史事件记录、合同签署时间提取等需要结构化时间字段的业务场景。
2.2 时间表达式解析
支持常见的时间段描述,包括上午/下午、几点几分等,并能正确映射为 12 小时制带 a.m./p.m. 标记的标准时间。
输入: 早上八点半 输出: 8:30a.m. 输入: 下午三点十五分 输出: 3:15p.m.对于模糊时间如“大概八点左右”,系统保留原意不做转换,确保语义完整性。
2.3 数字与货币转换
将中文数字(如“一百二十三”)转换为阿拉伯数字形式,并结合上下文判断是否添加单位符号。
输入: 一百二十三 输出: 123 输入: 一点二五元 输出: ¥1.25 输入: 一百美元 输出: $100此功能极大提升了财务数据、价格信息的可读性和后续处理效率。
2.4 分数与度量单位规整
支持分数、重量、长度等物理量的标准化输出,便于科学计算和报表生成。
输入: 五分之一 输出: 1/5 输入: 二十五千克 输出: 25kg 输入: 三十公里 输出: 30km2.5 数学表达式还原
识别正负号、小数点等数学概念的中文表述,还原为标准数学符号。
输入: 负二 输出: -2 输入: 正五点五 输出: +5.52.6 车牌号码智能转换
针对中国车牌编号规则设计专用转换逻辑,将汉字数字混合的车牌号转换为标准字母+数字组合。
输入: 京A一二三四五 输出: 京A12345 输入: 沪B六七八九零 输出: 沪B67890该功能在交通管理、停车场系统、车辆识别等场景中具有重要应用价值。
3. 使用方式与操作流程
3.1 启动服务
运行以下命令启动或重启应用:
/bin/bash /root/run.sh服务默认监听端口7860,可通过浏览器访问:
http://<服务器IP>:78603.2 单文本转换流程
- 打开 WebUI 页面
- 切换至「📝 文本转换」标签页
- 在输入框中填写待转换文本
- 点击「开始转换」按钮
- 查看输出框中的标准化结果
示例:
输入: 二零零八年八月八日早上八点半 输出: 2008年08月08日 8:30a.m.3.3 批量转换操作指南
适用于大规模数据处理需求:
- 准备
.txt文件,每行一条原始文本 - 进入「📦 批量转换」页面
- 点击「上传文件」选择本地文件
- 点击「批量转换」执行处理
- 转换完成后点击「下载结果」获取标准化文本
支持的文件格式示例:
二零零八年八月八日 一百二十三 早上八点半 一点二五元4. 高级设置与参数调优
通过「高级设置」面板可精细化控制转换行为,满足不同业务需求。
| 设置项 | 功能说明 |
|---|---|
| 转换独立数字 | 控制是否将孤立出现的中文数字转为阿拉伯数字(如“幸运一百” → “幸运100”) |
| 转换单个数字 (0-9) | 决定单个数字是否转换(如“零和九” → “0和9”) |
| 完全转换'万' | 开启后“六百万”变为“6000000”,关闭则保持“600万” |
这些选项允许用户在语义保真度与格式一致性之间做出权衡。例如,在文学类文本处理中建议关闭部分转换以保留语言风格;而在金融、法律等专业领域则推荐全开以保证数据严谨性。
5. 支持的转换类型汇总
下表列出所有已支持的转换类别及其典型示例:
| 类型 | 输入示例 | 输出示例 |
|---|---|---|
| 日期 | 二零一九年九月十二日 | 2019年09月12日 |
| 时间 | 早上八点半 | 8:30a.m. |
| 数字 | 一千九百八十四 | 1984 |
| 货币 | 一点二五元 | ¥1.25 |
| 分数 | 三分之二 | 2/3 |
| 度量单位 | 三十公里 | 30km |
| 数学表达 | 负二 | -2 |
| 车牌号 | 京A一二三四五 | 京A12345 |
系统采用上下文感知机制,避免歧义错误。例如,“二十”在“二十号”中仍保留为“20号”,而非简单替换为“20”。
6. 实际应用场景与技巧
6.1 长文本综合处理
系统支持包含多个实体类型的复合句式,实现端到端自动化规整。
输入: 这件事发生在二零一九年九月十二日的晚上,大概八点半左右,涉及金额为一万二千元。 输出: 这件事发生在2019年09月12日的晚上,大概8:30左右,涉及金额为12000元。6.2 批量数据高效处理
对于每日需处理数百条语音记录的企业用户,推荐使用批量转换功能配合定时脚本,实现无人值守的数据清洗流水线。
6.3 结果保存与追溯
点击「保存到文件」按钮可将当前转换结果持久化至服务器,文件名包含时间戳(如result_20250405_1430.txt),便于归档与审计。
7. 常见问题与解决方案
Q1: 转换结果不准确?
A: 尝试调整高级设置参数。若问题持续存在,请检查输入文本是否存在方言或非常规表达。
Q2: 是否支持大写数字?
A: 是的,系统支持“壹、贰、叁”等大写数字以及“幺(一)、两(二)”等变体表达。
Q3: 首次转换延迟较高?
A: 正常现象。首次加载或修改参数后需重新初始化模型,耗时约 3-5 秒。后续转换响应迅速。
Q4: 版权信息如何保留?
A: 项目承诺永久开源,但必须保留以下声明:
webUI二次开发 by 科哥 | 微信:3120884158. 总结
FST ITN-ZH 镜像通过高效的 FST 规则引擎,实现了对中文口语表达的精准逆文本标准化,覆盖日期、时间、数字、货币、车牌号等多种关键实体类型。其图形化界面降低了使用门槛,批量处理能力提升了工程实用性。
无论是个人用户希望快速整理语音笔记,还是企业需要构建自动化数据处理管道,该工具都能显著降低文本清洗成本,提升信息利用率。配合灵活的高级设置选项,可在准确性与语义保留之间找到最佳平衡点。
更重要的是,该项目体现了从“识别可用”到“结果可用”的技术演进方向——真正的智能化不仅在于听懂人话,更在于输出机器友好、人类省心的标准文本。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。