百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

基于统计模型的语音激活检测算法改进

moboyou 2025-05-07 13:47 16 浏览

摘 要:语音激活检测技术是应用于语音侦听领域降低节点能耗的关键技术之一,其核心是语音激活检测算法。针对基于统计模型的语音激活检测算法仅采用当前语音帧的参数来判断有无语音信号而带来的误检率高的问题,提出用相邻语音帧逻辑与运算的方法对其进行改进。试验表明:改进后的算法在误检率上明显低于改进前,提高了语音信号检测的准确性,有效地降低了节点能耗。

0 引言

语音激活检测技术是利用语音激活检测算法,仅当检测到语音信号时激活节点,使之从休眠状态转换到工作状态,其余时间处于休眠状态,是降低节点能耗的关键技术之一。基于统计模型的语音激活检测算法,通过选取特征参数建立统计分布模型,根据当前帧的信息计算出模型中的未知参数,得出判决准则,并据此判断有无语音信号[1]。其优点是能够适应时变噪声的特点,在复杂环境下,检测的准确率较高[2-4]。但只根据当前语音帧的参数来判断有无语音信号具有一定的局限性,极易出现误判的情况。因此,对基于统计模型的语音激活检测算法加以改进来降低误检率,对语音侦听领域具有十分重要的意义。

1 基于统计模型的语音激活检测算法

1.1 算法的基本步骤

基于统计模型的语音激活检测算法[2-3,5]以贝叶斯定理和似然比检验为基础,检验过程分提出假设、分析参数和检验判决三步。

1.1.1 提出假设

待测音信号X有两种假设:一是只有噪声N存在,则原假设H0为真,判定未检测到语音;二是语音S与噪声N同时存在(S与N互不相关),则备选假设H1为真,判定检测到语音,可以描述为:

H0∶X(t)=N(t)(1)

判定不存在语音信号。

H1∶X(t)=N(t)+S(t)(2)

判定存在语音信号。

1.1.2 分析参数

首先要根据其频率特征进行周期性采样,使波形参数由连续时间序列变为离散时间序列。然后根据采样信号的振幅绝对值描绘直方图,计算概率密度表达式,将模拟的语音信号用数字参数表示出来[1]。第t帧加噪信号、纯语音信号和噪声信号的离散傅里叶变换系数如下。

X(t)=[X0(t),X1(t),…,XM-1(t)]T(3)

S(t)=[S0(t),S1(t),…,SM-1(t)]T(4)

N(t)=[N0(t),N1(t),…,NM-1(t)]T(5)

在X(t)、S(t)、N(t)中,第k个谱分量的系数分别为Xk、Sk和Nk。用Xk(R)和Xk(I)分别表示离散傅里叶变换系数Xk的实部和虚部,假设每个DFT系数的实部和虚部都服从拉普拉斯概率密度函数,如果其实部和虚部的方差相同,则Xk(R)和Xk(I)的概率密度分布如式(6)和式(7)所示。

其中,

是指Xk方差的平方根。因为Xk的实部和虚部近似独立,其方差可以看作相等,则Xk的概率密度函数可以表示为[1,6]:

H0和H1的条件概率密度函数分别为:

其中,λs,k和λn,k分别代表Sk和Nk的方差。

1.1.3 检验判决

根据两个假设的条件概率密度函数,计算出第k个频谱分量的似然比:

其中,Λk是基于拉普拉斯统计分布模型的语音激活检测算法的第k个频谱分量的判决统计量。将加噪语音分析后,根据式(11)计算出信号第k个频谱分量的似然比,在实际应用中,为了使计算简单,可以用瞬时谱幅度|Xk|代替

两个假设的拉普拉斯概率密度如图1所示。在两个概率密度曲线的交点处,P(Xk|H0)=P(Xk|H1),似然比Λk=1;在两个交点之间,P(Xk|H0)>P(Xk|H1),Λk<1,H1的概率小于H0的概率,H0成立,检测不存在语音信号;在两个交点之外,P(Xk|H0)<P(Xk|H1),Λk>1,则H1的概率大于H0的概率,H1成立,即检测到语音信号。

1.2 算法的流程

基于统计模型的语音激活检测算法流程如图2所示。

2 算法的改进

2.1 改进的思想

算法的改进参照逻辑与运算的思想,真值表如表1所示。在基于统计模型算法的基础上:(1)如果第k帧(k为大于等于1的正整数)信号检测判定结果是“0”,第k-1帧信号输出结果是“0”,那么经过与运算的结果是“0”,表示无语音信号;(2)如果第k帧信号检测判定结果是“0”,第k-1帧信号检测判定结果是“1”,与运算后的结果是“0”,同样判断无语音信号;(3)如果第k帧信号检测判定的结果是“1”,第k-1帧信号检测判定结果是“0”,那么经过与运算的结果还是“0”,依然判为无语音信号;(4)只有两次检测的结果均为“1”,与运算后的结果才是“1”,才能证明有语音信号存在。只有当前帧信号的判决结果是“1”时,才有可能判断有语音信号存在。所以为简便判决,只在当前帧判决结果为“1”时执行与运算。

2.2 改进算法的流程

改进算法的工作原理是将一段语音信号采样分帧处理后,对第k帧信号依据上节的检测激活算法完成检验判决,将结果存于寄存器,若结果为“0”,返回继续完成后续帧的检验;若结果为“1”,与上一帧信号进行与运算,根据运算结果完成最后判决。改进后的算法流程如图3所示。

3 改进算法的验证与分析

3.1 试验步骤和结果

语音信号的检测仿真选用MATLAB平台。仿真主要完成不同噪声环境下基于统计模型的语音激活检测算法(用算法1表示)和其改进算法(用算法2表示)误检率的测试。

试验步骤如下:(1)在较为安静的环境下录制一段长约6 s的语音片段作为原始样本,保存为.wav格式;(2)将语音原始样本分别与车辆噪声和人群噪声混合;(3)将混合信号在信噪比0~20 dB之间应用两种检测算法进行仿真,得出误判率。试验结果如图4、图5所示。

3.2 试验结果分析

在车辆噪声环境下,算法的误检率随信噪比的增加而增加,这是由于车辆噪声和语音信号的差异性导致信噪比增加时算法的正确率和错误率同时增加,而错误率的增长幅度大于正确率的增长幅度。在人群噪声环境下,算法的误检率随信噪比的增加而减少。

在两种噪声环境且信噪比相同的情况下,改进后的算法在语音信号的误检率上均明显低于改进前的误检率,提高了语音信号检测的准确性;而语音激活检测技术是当且仅当检测到语音信号时,才激活语音侦听节点从休眠状态转换为工作状态,因此改进后的算法降低了节点能耗,延长了节点的生命周期。

4 结论

改进的基于统计模型的语音激活检测算法是通过相邻帧逻辑与的方法来实现的。试验结果表明:算法改进后,语音信号的误检率明显低于改进之前,降低了节点能耗,延长了节点寿命,适用于便携式语音检测装置中。

参考文献

[1] 彭利华.高噪声环境下语音激活检测技术的研究[D].武汉:华中科技大学,2007.

[2] SOHN J S, SUNG W Y. A voice activity detector employing soft decision based noise spectrum adaptation[C]. Proceeding of the IEEE Speech Coding Workshop, 1998:365-368.

[3] CHO Y D, KONDOZ A. Analysis and improvement of a statisticalmodel-based voice activity detector[J]. IEEE Signal Processing Letters, 2001,8(10):276-278.

[4] 戴启军,卞正中,陈砚圃,等.基于统计模型实现语音信号有声/无声检测的研究[J].西安交通大学学报,2002,36(8):839-846.

[5] EPHRAIM Y, MALAH D. Speech enhancement using a minimummean-square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoust Speech and Signal Processing,1984,32(6):1109-1121.

[6] 景占荣,羊彦.信号检测与估计[M].北京:化学工业出版社,2004.

相关推荐

【开源推荐】给大家推荐个基于ChatGPT的PHP开发库 openai-php-api

有了这个库大家就可以愉快的使用PHP对接chatGPT的官方接口了,至于对接了官方接口想要做什么就看你自己的啦环境要求PHP7.4或以上composer1.6.5以上支持框架Laravel、Sym...

PHP使用Phar打包控制台程序

1.介绍1.1介绍php脚本有着非常强大的库支持,可以轻松做出特别强大的程序。php不仅仅可以搭建各种各样的网站系统、平台系统,还可以开发基于控制台运行的程序。不过使用php开发的控制台程序在使用...

PHP实现URL编码、Base64编码、MD5编码的方法

1.介绍1.1介绍今天开始福哥要给大家讲解关于字符编码的知识,所谓字符编码就是将一个字符串或者是一个二进制字节数组里面的每一个字符根据一定的规则替换成一个或者多个其他字符的过程。字符编码的意义有很...

雷卯针对易百纳海思Hi3521D开发板防雷防静电方案

一、应用场景1、医疗电子2、安防监控3、数字标牌4、视频广告5、环境监测二、功能概述1CPU:ARMCortexA7双核@Max.1.3GHz2H.265/H.264&JPEG多码流编...

不折腾无人生-安卓盒子安装Linux系统armbian纪实

不折腾无人生-安卓盒子安装Linux系统armbian纪实小编的x96max+(晶晨Amlogics905x3)安卓盒子已安装二个系统,原装安卓9.0和tf卡上的CoreELEC9.2.3,可玩性...

全网最简单的玩客云刷casaos方法及后续使用心得

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:不鸣de前几天在站内看见很多值友分享了玩客云刷casaos,被简洁的操作界面种草,于是我将之前刷了powersee大神网页导航版armbia...

最新评测:英特尔旗舰 Alder Lake 处理器击败苹果M1 Max

据国外媒体tomshardware报道,英特尔最新的酷睿i9-12900HK处理器刚刚赢得了移动x86与Arm的性能大战,但这是有代价的。这款移动14核AlderLake芯片在多个工作负...

创维酷开Max系列电视开启ADB并安装第三方应用教程

前言创维酷开系列智能电视采用的是相对封闭的系统,虽然设置中提供了安装未知应用的选项,但由于电视安装位置的限制,往往难以直接使用USB接口安装应用。本文将详细介绍如何通过ADB方式在创维酷开Max系列电...

苹果 Mac Studio,再次刷新我们对个人电脑的认知

由两块M1Max组成的M1Ultra,成为了M1系列的最后一块拼图,并完成了整个M1SoC宇宙。这就好像《复仇者联盟4:终局之战》对于漫威第一阶段,十几年勤恳的布局,最终达到顶峰...

「必买」盘点2021年男人们的败家清单,越“败”越香

心里总想买点啥?看看《必买》,全网最有料的场景种草指南。草原割不尽,春风吹又生。在过去的2021年,不断被各种数码产品种草,一直在买买买,剁手不停。大部分产品都经过详细的对比做足了功课,也有部分是一时...

Opus音频编解码在arm上的移植

一、简介现在有个需求,在局域网内实现实时语音,传输层协议使用UDP协议,如果直接使用ALSA进行录制音频流并发送到另一端进行播放,音质会非常差,而且断断续续,原因如下:采样频率:fm=44.1K...

N ARM MINI空气减震系统臂体安装指南及应用说明

距离MOVMAX移动大师NARMMINI发布已经过去一段时间了,不少收到NARMMINI的小伙伴也已经迅速将产品投入到自己的车拍工作中去了。而在实际工作过程中我们也收到了用户的部分疑问和反馈:...

搜索引擎中的性能怪兽,Elasticsearch挑战者之Manticore Search

ManticoreSearch简介ManticoreSearch是一个使用C++开发的高性能搜索引擎,创建于2017年,其前身是SphinxSearch。ManticoreSe...

10个运维拿来就用的 Shell 脚本,用了才知道有多爽

1、监控MySQL主从同步状态是否异常脚本#!/bin/bashHOST=localhostUSER=rootPASSWD=123.comIO_SQL_STATUS=$(mysql-h$...

PHP7.0.0正式版开放下载:速度大提升

IT之家讯PHP发布经理AnatolBelski在GitHub发布了PHP7.0.0正式版,该版本在速度提升上面有非常大的进步,比5.6版本提速两倍,已经接近Facebook开发的PHP执行引擎...