Python知识分享网 - 专业的Python学习网站 学Python,上Python222
AI产品经理需要了解的语音交互评价指标 PDF 下载
匿名网友发布于:2025-05-06 10:19:00
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

AI产品经理需要了解的语音交互评价指标 PDF 下载  图1

 

 

资料内容:

 

 

一、识别 ASR
语音识别(Automatic Speech Recognition),一般简称 ASR,是将声音转化为文字的过
程,相当于人类的耳朵。
 
1识别
看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调
状态等),还有在线/离线识别的区别。
实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”
定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者
插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百
分比,即为 WER。
公式为:
Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目
3 点说明:
WER 可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。
因为有插入词,所以理论上 WER 有可能大于 100%,但实际中、特别是大样本量的时候,是
不可能的,否则就太差了,不可能被商用。
站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个
数”,即“识别(正确)率等于 96%”这种,实际工作中,这个应该指向“SER(句错误率,
Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。不过据说在实际
工作中,一般句错误率是字错误率的 2~3 倍,所以可能就不怎么看了。
 
2醒相关的指
先需要介绍下语音唤醒(Voice Trigger,VT)的相关信息。
(1)语音唤醒的需求背景
近场识别时,比如使用语音输入法时,用户可以按住手机上 siri 的语音按钮,直接说话
(结束之后松开);近场情况下信噪比(Signal to Noise Ratio, SNR)比较高,信号清
晰,简单算法也能做到有效可靠。
但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,
相当于叫这个 AI(机器人)的名字,引起 ta 的注意,比如苹果的“Hey Siri”,Google
的“OK Google”,亚马逊 Echo 的“Alexa”等。
(2)语音唤醒的含义
简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒
(激活)词,那后续的语音就应该被识别;否则,不进行识别。
(3)语音唤醒的相关指标
a. 唤醒率。叫 AI 的时候,ta 成功被唤醒的比率。b. 误唤醒率。没叫 AI 的时候,
ta 自己跳出来讲话的比率。如果误唤醒比较多,特别比
如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的……
c. 唤醒词的音节长度。一般技术上要求,最少 3 个音节,比如“OK Google”和“Alexa”
有四个音节,“Hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小
雅”,而不能用“小雅”——如果音节太短,一般误唤醒率会比较高。
d. 唤醒响应时间。之前看过傅盛的文章,说世界上所有的音箱,除了 Echo 和他们做的
小雅智能音箱能达到 1.5 秒,其他的都在 3 秒以上。
e. 功耗(要低)。看过报道,说 iPhone 4s 出现 Siri,但直到 iPhone 6s 之后才允许不
接电源的情况下直接喊“Hey Siri”进行语音唤醒;这是因为有 6s 上有一颗专门进行语
音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。