以科技重塑千年雅乐,AI驱动的非物质文化遗产传承新范式
泉州师范学院 | 数学与计算机科学学院 X 南音学院
南音,作为人类非物质文化遗产代表作,其传承正面临前所未有的挑战。它以独特的泉州腔为灵魂,但对于数以万计的非闽南语母语学习者而言,自学过程中缺乏实时、准确的发音反馈,极易形成难以纠正的错误发音习惯。传统的师徒口传心授模式,虽保证了传承质量,但优质师资的稀缺性,已无法满足因文化自信而激增的学习需求。
我们坚信,技术不应只是记录,更应是传承的催化剂。我们的愿景是:以AI之力,为每一位南音爱好者提供一位随身的、不知疲倦的、高度专业的发音教练。
核心破局点:不止于“听见”,更要实现“校准”。
我们不仅在教,更在陪伴。从聆听、模仿到即时反馈,构建完整的学习闭环。
内置由南音学院专业艺人录制的标准发音库,确保学习者接触到的是最纯正的泉州腔。支持单句、单字循环播放,为模仿和跟读提供了权威基准。
录音后,系统不仅是简单识别,而是将用户发音的音频流直接送入专为南音优化的AI评测引擎。引擎将音频特征与标准音素模型进行比对,实现对替换、遗漏、增添等错误的精准判断。
评测结果以直观的可视化报告呈现。正确的音节用绿色标记,错误的用红色高亮,并清晰展示“标准音”与“您的发音”之间的差异。这种“像素级”的反馈,让学习者一目了然,实现了从“感觉不对”到“知道哪里不对”的跨越。
我们设计的不是一个单一应用,而是一个现代化的具备高弹性、高可用、高并发、可扩展的分布式评测服务系统。
通过OpenResty网关前置处理I/O密集型的音频上传,后端仅接收轻量级通知,极大提升了业务服务器的吞吐能力。RabbitMQ作为系统“缓冲带”,将评测任务异步化,实现了服务间的解耦与流量的削峰填谷。
AI评测服务采用无状态设计,通过Docker容器化部署。结合Nacos服务发现,可根据队列积压情况动态扩缩容评测节点,从容应对流量洪峰,保证了服务的高可用性。
利用Redis缓存评测的中间状态与最终结果,为前端提供低延迟的轮询体验。评测完成事件触发PostgreSQL的数据持久化,将用户练习记录、评测报告等核心数据沉淀,为后续的数据分析和功能迭代打下坚实基础。
顶尖的模型、高质量的数据、严谨的工程实践,三者共同构筑了我们的技术壁垒。
我们选用 OpenAI Whisper-large-v3 作为基座模型,它具备强大的多语言语音识别和噪声鲁棒性。在此基础上,我们利用与泉州师范学院南音学院合作建立的超过2000句、标注精准的泉州腔标准音频数据库进行监督式微调(Supervised Fine-Tuning)。训练目标并非转写为汉字,而是直接输出至国际音标(IPA),这使得模型能更专注于声学特征的学习,避免了多音字等歧义问题。
根据我们的模型评估报告,在包含多位发音人的独立测试集上,模型展现出卓越的性能。
*通用模型指未经微调的Whisper-large-v3在同一测试集上的表现。
一个优秀的AI应用,算法只占一部分,稳定可靠的工程化实践同样重要。我们的评测管线确保了每一次用户请求都能得到高质量的处理。
音频预处理
降噪/标准化质量预检
VAD/音量检测ASR推理
语音转音素WER计算
动态规划比对生成报告
可视化结果我们整合了业界前沿且成熟的技术栈,构建了一个从前端采集、后端处理、AI计算到基础运维的全链路技术体系,确保项目的稳定、高效与可扩展。
核心模型: 基于OpenAI Whisper-large-v3,在我们自建的、超过1000句的南音泉州腔标准发音数据集上进行领域自适应微调(Fine-tuning)。
评测算法: 采用动态规划实现的音素级编辑距离(PER)算法,精准计算替换、删除、插入错误,提供详尽的诊断报告。
技术框架: PyTorch, Transformers, Librosa
业务核心: Spring Boot 3,提供RESTful API,处理用户、歌曲、练习记录等核心业务逻辑,并通过JWT实现无状态认证。
服务治理: Nacos作为服务发现与配置中心,实现后端服务与AI服务的动态管理。
数据持久化: PostgreSQL负责结构化数据存储,Redis用于评测结果的快速轮询与缓存。
框架: 采用Uni-app框架,基于Vue 3语法,实现“一次开发,多端部署”,覆盖iOS、Android及小程序,极大提升开发效率与用户触达范围。
设计: 遵循现代UI/UX设计原则,提供简洁、优雅且响应迅速的用户界面。
容器化: 所有服务(SpringBoot, Python, Nginx, Redis等)均通过Docker进行容器化封装,保证开发、测试、生产环境的一致性。
编排: 使用Docker Compose在单机上快速编排和部署整个应用集群,简化了部署流程并实现了服务的隔离。
我们构建了从上传到反馈的全链路异步管线,确保从音频上传到结果反馈的每一步都流畅、稳健。
客户端音频文件直接上传至 OpenResty 网关。利用其高性能I/O与Lua脚本能力,实现对后端Java服务的文件上传任务卸载,将耗时的文件流操作前置。网关完成文件持久化后,仅将文件路径与元数据通过轻量级HTTP请求通知后端,极大降低了应用服务器的负载。
后端服务接收到通知后,并不立即执行评测。而是将包含任务ID、文件路径、标准音标等信息的完整任务体封装成消息,推送至 RabbitMQ 消息队列。此设计彻底解耦了业务应用与AI评测服务,实现了流量削峰填谷,即使在评测请求洪峰期,也能保证系统的稳定和响应速度。
独立的Python评测服务集群作为消费者,从RabbitMQ中异步拉取任务。该服务利用 PyTorch 框架,在GPU环境下运行微调后的Whisper-large-v3模型进行高效识别。评测完成后,通过动态规划算法计算与标准音标的WER,生成音素级对比报告。
评测结果兵分两路:
- 热数据通道:简要结果(状态、准确率)被写入 Redis 并设置短期过期时间,供前端进行低延迟、无状态的轮询。
- 冷数据通道:完整的评测报告作为事件再次发布到RabbitMQ,由后端业务服务消费,并持久化到PostgreSQL数据库,用于用户学习记录追溯和数据分析。
我们选用业界主流、稳定且高效的技术栈,为系统的可靠性与可维护性提供坚实基础。
组合式API,提升开发效率
一套代码,多端发布
模块化、可编程的CSS

领先的深度学习框架
openAI开源,行业领先的ASR模型
AI领域首选开发语言
企业级应用快速开发框架
基于JWT的无状态认证授权
高效、标准化的数据持久化

功能强大的开源关系型数据库
成熟、可靠的消息中间件
高性能内存数据库,用于缓存

基于Nginx的高性能Web平台

容器化部署,实现环境一致性
我们的优势并非单一技术的领先,而是数据、算法与生态三位一体构建的、深度融合的综合壁垒。
我们拥有业界唯一的、与南音学院合作共建的泉州腔标准音色-音素数据库。随着用户数据的不断积累和模型的持续迭代,这个数据壁垒将越来越高,形成强大的网络效应。
模型并非通用ASR,而是针对南音唱腔特点(如润腔、一字多音)进行微调。通过自定义的评估指标(WER/PER),训练出在南音音素识别上远超通用模型的专用AI引擎。
项目由泉州师范学院南音学院提供学术指导与数据支持,保证了内容的权威性。我们深度结合真实教学场景,未来规划与工乂谱等专业打谱软件生态联动,形成南音数字化学习的闭环。
我们深知,这个项目的终极价值,远不止于一个商业产品。它是技术与文化的一次深度拥抱。通过AI降低南音的学习门槛,我们正在为这项被列入人类非物质文化遗产代表作名录的千年艺术,开辟一条全新的、数字化的传承之路,让它的魅力能够跨越时空,触达更广阔的人群。
利用最前沿的人工智能技术,打破语言和地域的壁垒,让南音这一璀璨的文化瑰宝得以被更广泛地学习、更精准地传承、更长久地流传。我们相信,科技最好的归宿,就是服务于人类最珍贵的文化。
谢谢
扫码立即体验
测试账号: test
测试密码: test