资料内容:
AI 产品经理需了解的技术知识:语音识别技术
(1)
本文章主要介绍了语音识别技术语的发展、基本原理、语音特征,目的是帮助 PM 了解语
音技术方面的知识,有助于语音类相关产品的设计~
一、语音识别的发展
20 世纪 50 年代,语音识别的研究工作开始,这时主要探索和研究声音和语音学的基本概
念和原理。
20 世纪 60 年代,可以解决不等长语音匹配问题。
20 世纪 70 年代,随着 NLP 技术和微电子技术的深入发展,语音识别领域的线性预测分析
技术得到广泛应用,HMM 等技术基本成熟。
20 世纪 80 年代,语音研究其显著特征是 HMM 和人工神经网络(ANN)。
从发展可以看出:语音识别技术最早依靠匹配,寻找单个音节、单个词和标准语音模板的
最大相似度进行匹配。后来伴随着统计学被引入到语音识别中,将该技术逐步从模板匹配
技术转向基于统计模型技术。
二、语音识别的基本原理
对于不同的语音识别过程,人们采用的识别方法和技术不同,但所用的原理大致相同,即
将经过降噪处理后的语音送入特征提取模块,然后对语音信号特征处理后输出识别结果。
在这个过程中,特征提取是构建语音系统的关键,对识别结果起到了重要作用,原理见下
图:
特征提取:提取语音特征参数,形成特征矢量序列。
三、语音信号特征
实现语音识别,就需要语音参数来刻画语音信息。语音原本具有短时特性,所以描述语音
的单位用帧(一般为 10-40ms),在音频帧上提取的短时音频特征,叫音频帧特征。相对
音频帧较长的时间间隔成为音频段,在音频段上提取的特征叫音频段特征。
下面列举一些常用的音频特征和音频段特征: