AI产品经理需要了解的语音交互评价指标 PDF 下载-Python知识分享网

AI产品经理需要了解的语音交互评价指标 PDF 下载

匿名网友发布于：2025-05-06 10:19:00

(侵权举报)

(假如点击没反应，多刷新两次就OK！)

AI产品经理需要了解的语音交互评价指标 PDF 下载图1

资料内容：

一、语音识别 ASR

语音识别（Automatic Speech Recognition），一般简称 ASR，是将声音转化为文字的过

程，相当于人类的耳朵。

1、识别率

看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调

状态等），还有在线/离线识别的区别。

实际工作中，一般识别率的直接指标是“WER（词错误率，Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者

插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百

分比，即为 WER。

公式为：

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

3 点说明：

WER 可以分男女、快慢、口音、数字/英文/中文等情况，分别来看。

因为有插入词，所以理论上 WER 有可能大于 100%，但实际中、特别是大样本量的时候，是

不可能的，否则就太差了，不可能被商用。

站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个

数”，即“识别（正确）率等于 96%”这种，实际工作中，这个应该指向“SER（句错误率，

Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。不过据说在实际

工作中，一般句错误率是字错误率的 2~3 倍，所以可能就不怎么看了。

2、语音唤醒相关的指标

先需要介绍下语音唤醒（Voice Trigger，VT）的相关信息。

（1）语音唤醒的需求背景

近场识别时，比如使用语音输入法时，用户可以按住手机上 siri 的语音按钮，直接说话

（结束之后松开）；近场情况下信噪比（Signal to Noise Ratio, SNR）比较高，信号清

晰，简单算法也能做到有效可靠。

但是在远场识别时，比如在智能音箱场景，用户不能用手接触设备，需要进行语音唤醒，

相当于叫这个 AI（机器人）的名字，引起 ta 的注意，比如苹果的“Hey Siri”，Google

的“OK Google”，亚马逊 Echo 的“Alexa”等。

（2）语音唤醒的含义

简单来说是“喊名字，引起听者（AI）的注意”。如果语音唤醒判断结果是正确的唤醒

（激活）词，那后续的语音就应该被识别；否则，不进行识别。

（3）语音唤醒的相关指标

a. 唤醒率。叫 AI 的时候，ta 成功被唤醒的比率。b. 误唤醒率。没叫 AI 的时候，

ta 自己跳出来讲话的比率。如果误唤醒比较多，特别比

如半夜时，智能音箱突然开始唱歌或讲故事，会特别吓人的……

c. 唤醒词的音节长度。一般技术上要求，最少 3 个音节，比如“OK Google”和“Alexa”

有四个音节，“Hey Siri”有三个音节；国内的智能音箱，比如小雅，唤醒词是“小雅小

雅”，而不能用“小雅”——如果音节太短，一般误唤醒率会比较高。

d. 唤醒响应时间。之前看过傅盛的文章，说世界上所有的音箱，除了 Echo 和他们做的

小雅智能音箱能达到 1.5 秒，其他的都在 3 秒以上。

e. 功耗（要低）。看过报道，说 iPhone 4s 出现 Siri，但直到 iPhone 6s 之后才允许不

接电源的情况下直接喊“Hey Siri”进行语音唤醒；这是因为有 6s 上有一颗专门进行语

音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

热门帖子推荐

相关帖子推荐

热门标签推荐