基于内唇轮廓标定的唇印提取算法(唇印设计)
moboyou 2025-04-30 11:33 44 浏览
摘要:针对现有特征唇印提取中信息处理量较大、识别率不高等问题,本文提出了基于内唇轮廓的特征唇印提取算法。算法首先在基元图像上对内唇轮廓特征点进行标定,建立基元唇印模型,然后通过均值计算构造普通模型,并利用Gabor变换对基元唇印和普通模型进行联合特征信息提取,最后通过相似度对比选择出特征唇印,以实现身份识别。仿真实验验证,本文的特征唇印提取算法在较低时空消耗下,具有较高的识别率,具有有效性和可用性。
0引言
特征唇印的提取是动态唇形身份识别技术中的核心环节,主要分为基于像素、基于模型以及混合型三类特征提取算法。基于像素的特征提取是直接对唇部的灰度图像进行特征提取。如文献[1]采用主成分分析法对唇部的灰度图像进行特征提取,虽然算法对唇部的灰度图像的质量要求较低,但易受其他因素的影响致使识别率有所差异。基于模型的特征提取通过对唇部建立相应的模型,以模型参数作为特征信息。文献[2]将自适应的均值模板引入到ASM中,虽然对唇部轮廓有更强的描述能力,但算法复杂,实用性较差。混合型的唇印提取算法结合了上述两种算法的优点。文献[3]采用AAM(Active Appearance Model)来提取特征,算法将轮廓模型与主成分分析法相结合,具有较好的效果,但过程较复杂。文献[4]提出了基于唇色滤波器的嘴唇特征提取, 适用于口型识别的实时唇定位。文献[5]运用DCT+LDA 的方法提取唇读视觉特征,但现有特征唇印提取中信息处理量较大、识别率不高。针对嘴唇的外沿变化不是特别明显、需要对大量数据进行验证和概括的问题,本文采用模型点和Gabor变换相融合的唇印提取算法,利用内唇轮廓上关键点建立唇印模型,利用Gabor变换进行特征提取,算法在一定程度上降低了复杂度,同时具有较高的特征表征能力。
1特征唇印提取模型及相关规定
11提取模型的相关规定
(1)为了便于叙述,设{a;o;i;u;sh;z}为关键基元,这6个声、韵母充分涵盖了说话人的唇型特征。
(2)对每个关键基元进行图像标定特征点、边,构造不同关键基元的唇部模型,称为基元唇印。
(3)对所有基元唇印进行多次训练,对标定的特征点、边取平均值计算得唇部均值模型,称为普通模型。
(4)将以身份识别的唇动特征模型称为特征唇印。
12特征唇印的提取模型
特征唇印的提取主要由基元唇印建立、普通模型构造、特征唇印选择等几个阶段组成。
(1)基元唇印的建立:从待识别的基元图像中选出一幅尚未提取特征的图像,对其内唇轮廓进行特征点标定,得到特征点的坐标及欧氏距离;(2)普通模型的构造:在基元唇印库中随机选择一定数量的基元唇印作为训练集,并根据基元类型分类,对每一类每个特征点求取平均坐标,构造六组普通模型;(3)特征唇印选择:将讲话人的六个基元唇印及六组普通模型对应起来,然后利用Gabor变换进行特征点抽取,计算相似度,选择相似度最小的作为特征唇印。流程如图1所示。
2基于内唇轮廓的特征唇印提取算法
内唇特征提取算法需要经过基元唇印建立和普通模型构造两个子过程。
21基元唇印算法
基元唇印的建立是特征唇印提取的前提,算法通过对嘴部图像集进行操作得到基元唇印库和6个基元唇印。基元唇印(Primitives Lipstick(P))算法流程如下图2所示。
设每个讲话人6个基元唇印相应嘴部图像集为P={Pi|P1,P2,P3…Pi},每个Pi中标定9个特征点,分别是左右嘴角各1个,内唇上沿3个,内唇下沿4个,从左嘴角起顺时针标定,从而得到Pi的特征点集T={Tj| 1≤j≤9}。然后计算特征点之间的欧氏距离,这里规定从Pi的特征点集中选择编号相邻的特征点,连接为特征边,设Dmn为Tm、Tn间欧氏距离。
22普通模型构造
普通模型在一定程度上反映了基元唇印库中的平均唇形,是内唇特征提取的基础环节。流程为:首先随机选择N个基元唇印作为训练集TtrainingSet={TSi| 1≤i≤N};然后根据{a;o;i;u;sh;z}对训练集TtrainingSet进行分类得到六个集合Ki={TSj| 1≤j≤Ni};再者根据公式(1)和(2)分别求出第i类集合Ni个基元唇印特征点的坐标平均值Xij和Yij。
普通模型构造(AverageMouth(TtrainingSet))算法流程图如图3所示。
23内唇特征唇印提取
在基元唇印建立和普通模型构造两个子过程的基础上,构造内唇特征唇印提取算法。
首先根据基元唇印算法建立讲话人的6个基元唇印;然后在基元唇印库中随机选择N个基元唇印作为训练集,接着利用式(3)对6个基元唇印以及训练集的6个普通模型的9个特征点进行5个频位、8个相位的Gabor分解变换,得到特征点的特征向量[6]。
Cj=Ajexp(iφj)(1≤j≤40)(3)
其中Cj为卷积结果,Aj为幅值,φj为相位。
设J为基元唇印第i个特征点的Gabor变换系数集合{Cj|(1≤j≤40)},J′为对应的普通模型第i个特征点的Gabor变换系数集合{Jj|(1≤j≤40)},Si为J与J’之间的相似度值,Aj和Aj ′分别为J、J′的幅值,利用角度无关的相似度计算公式(4)可得每个特征点的相似度。
计算9个特征点相似度的平均值,以sk作为基元对应的基元唇印与普通模型之间的相似度。
相似度越小表明识别率越高,对sk进行排序,选择相似度最小的基元唇印作为特征唇印。
根据以上思想并结合基元唇印和普通模型算法,可设计出完整的内唇特征唇印提取算法Lipstick Extract (K, P),算法的流程如图4所示。
3仿真验证
为了验证本算法的可行性,利用MATLAB进行仿真实验,实验选取32个不同讲话人拼读6个关键基元的视频帧,每个讲话人对应6个关键基元。
31特征点标定
本文选用内唇轮廓线上的9个特征点标定模型特征,如图5所示的9特征点B,用点c捕获[a]、[o]发音过程中嘴唇的高度,用a、e两点捕获[o] 、[u]发音时嘴角位置,用b、d两点捕获嘴唇在发[o]、[u]、[sh]等音时的形变,用f、g、h、i四点来反映嘴唇上下开合时的距离及[i]、[sh]、[z]发音时唇部特征。
32与普通模型间的相似度水平
将文献[7]、文献[8]以及本算法所构造的基元唇印与普通模型间相似度均值进行比对,从图6中可看出,由于特征点比文献[7]减少了将近一半,本算法平均相似度值略高于文献[7],但与文献[8]相比,具有较低的相似度,说明本算法的捕获信息的能力更强。
33时间效率
针对时间效率,将本文算法与文献[7]、文献[8]以及不提取特征唇印直接进行识别的文献[9]算法进行比对,时间效率比对结果如表1。
从表1可以看出,本算法在身份识别中时间耗费最小,有更好的时间性能,虽然文献[9]节省了提取特征唇印所耗费的时间,但在整个识别过程中耗费时间较多。
34识别率
针对识别率,将本算法与文献[7]、文献[8]以及文献[9]算法进行了对比,结果如表2所示。
从表2中可知,本算法的识别率仅略低于文献[7],但拒识率最低。说明本算法能够在较低时空消耗下,保证较高的识别率。表2不同算法的识别率对比本文算法文献[7]文献[8]文献[9]识别率/%7885798272246385拒识率/%08311178
4结论
针对现有特征唇印提取中信息处理量较大、识别率不高等问题,本文提出了基于内唇轮廓的特征唇印提取算法,算法首先在基元图像上对内唇轮廓特征点进行标定,建立基元唇印模型,然后通过均值计算构造普通模型,并利用Gabor变换对基元唇印和普通模型联合特征信息提取,最后通过相似度对比选择出特征唇印,最终实现身份识别。仿真实验验证本文所提出的算法不仅耗时低,还具有较高的识别率。
参考文献
[1] Yang Jian,ZHANG D, Yang Jingyu. Constructing PCA baseline algorithms to rreevaluate ICAbased facerecognition performance[J]. IEEE Transactions on Systems,Man and Cybernetics,2007,37(4):1015-1021.
[2] KIM H C, KIM H J, HWANG W,et al.Facial feature point extraction using the adaptive mean shape in active shape model[C].Computer Vision/Computer Graphics Collaboration Techniques, France, 2007: 421-429.
[3] KATSAMANIS A, PAPANDREOU G, MARAGOS P. Face active appearance modeling and speech acoustic information to recover articulation[J],IEEE Tr.on Acoustics,Speech and Lang,2009,17(3):411-422.
[4] 姚鸿勋,高文,李静梅.用于口型识别的实时唇定位方法[J],软件学报,2000,11(8):1126-1132.
[5] NEFTAN A V, Liang Luhong, Liu Xiaoxing, et al. A coupled HMM for audio-visual speech recognition[C]. International Confzerence on Acoustics Speech and Signal Processing,2002,5(2):2013-2016.
[6] WISKOTT L,FELLOWS J M, N KRUK ger,et al.Face recognition by elastic bunch graph matching[J].IEEE Trans on Patern.Anal Mach Intell, 1997(19): 775-779.
[7] TIDDEMAN B, PERRETT D.Prototyping and transforming visemes for animated speech[C].IN Proceedings of Computer Animation,Geneva,Switzer-land,2002:248-251.
[8] Meng Yingjie, Li Zhaoxia,Hu Yingjie, et al. Speaker identification based on feature mouth shapes [J]. Journal of Information and Computational Science,2009(6): 1209-1216.
[9] POTAMIANOS G, Graf H. P, COSATTO E. An image transform approach for HMM based aotumatic lipreading [C]. Proceeding of the International Conference on Image Processing,Chicagao,1998(3):173-177.
相关推荐
- 【开源推荐】给大家推荐个基于ChatGPT的PHP开发库 openai-php-api
-
有了这个库大家就可以愉快的使用PHP对接chatGPT的官方接口了,至于对接了官方接口想要做什么就看你自己的啦环境要求PHP7.4或以上composer1.6.5以上支持框架Laravel、Sym...
- PHP使用Phar打包控制台程序
-
1.介绍1.1介绍php脚本有着非常强大的库支持,可以轻松做出特别强大的程序。php不仅仅可以搭建各种各样的网站系统、平台系统,还可以开发基于控制台运行的程序。不过使用php开发的控制台程序在使用...
- PHP实现URL编码、Base64编码、MD5编码的方法
-
1.介绍1.1介绍今天开始福哥要给大家讲解关于字符编码的知识,所谓字符编码就是将一个字符串或者是一个二进制字节数组里面的每一个字符根据一定的规则替换成一个或者多个其他字符的过程。字符编码的意义有很...
- 雷卯针对易百纳海思Hi3521D开发板防雷防静电方案
-
一、应用场景1、医疗电子2、安防监控3、数字标牌4、视频广告5、环境监测二、功能概述1CPU:ARMCortexA7双核@Max.1.3GHz2H.265/H.264&JPEG多码流编...
- 不折腾无人生-安卓盒子安装Linux系统armbian纪实
-
不折腾无人生-安卓盒子安装Linux系统armbian纪实小编的x96max+(晶晨Amlogics905x3)安卓盒子已安装二个系统,原装安卓9.0和tf卡上的CoreELEC9.2.3,可玩性...
- 全网最简单的玩客云刷casaos方法及后续使用心得
-
本内容来源于@什么值得买APP,观点仅代表作者本人|作者:不鸣de前几天在站内看见很多值友分享了玩客云刷casaos,被简洁的操作界面种草,于是我将之前刷了powersee大神网页导航版armbia...
- 最新评测:英特尔旗舰 Alder Lake 处理器击败苹果M1 Max
-
据国外媒体tomshardware报道,英特尔最新的酷睿i9-12900HK处理器刚刚赢得了移动x86与Arm的性能大战,但这是有代价的。这款移动14核AlderLake芯片在多个工作负...
- 创维酷开Max系列电视开启ADB并安装第三方应用教程
-
前言创维酷开系列智能电视采用的是相对封闭的系统,虽然设置中提供了安装未知应用的选项,但由于电视安装位置的限制,往往难以直接使用USB接口安装应用。本文将详细介绍如何通过ADB方式在创维酷开Max系列电...
- 苹果 Mac Studio,再次刷新我们对个人电脑的认知
-
由两块M1Max组成的M1Ultra,成为了M1系列的最后一块拼图,并完成了整个M1SoC宇宙。这就好像《复仇者联盟4:终局之战》对于漫威第一阶段,十几年勤恳的布局,最终达到顶峰...
- 「必买」盘点2021年男人们的败家清单,越“败”越香
-
心里总想买点啥?看看《必买》,全网最有料的场景种草指南。草原割不尽,春风吹又生。在过去的2021年,不断被各种数码产品种草,一直在买买买,剁手不停。大部分产品都经过详细的对比做足了功课,也有部分是一时...
- Opus音频编解码在arm上的移植
-
一、简介现在有个需求,在局域网内实现实时语音,传输层协议使用UDP协议,如果直接使用ALSA进行录制音频流并发送到另一端进行播放,音质会非常差,而且断断续续,原因如下:采样频率:fm=44.1K...
- N ARM MINI空气减震系统臂体安装指南及应用说明
-
距离MOVMAX移动大师NARMMINI发布已经过去一段时间了,不少收到NARMMINI的小伙伴也已经迅速将产品投入到自己的车拍工作中去了。而在实际工作过程中我们也收到了用户的部分疑问和反馈:...
- 搜索引擎中的性能怪兽,Elasticsearch挑战者之Manticore Search
-
ManticoreSearch简介ManticoreSearch是一个使用C++开发的高性能搜索引擎,创建于2017年,其前身是SphinxSearch。ManticoreSe...
- 10个运维拿来就用的 Shell 脚本,用了才知道有多爽
-
1、监控MySQL主从同步状态是否异常脚本#!/bin/bashHOST=localhostUSER=rootPASSWD=123.comIO_SQL_STATUS=$(mysql-h$...
- PHP7.0.0正式版开放下载:速度大提升
-
IT之家讯PHP发布经理AnatolBelski在GitHub发布了PHP7.0.0正式版,该版本在速度提升上面有非常大的进步,比5.6版本提速两倍,已经接近Facebook开发的PHP执行引擎...
- 一周热门
- 最近发表
- 标签列表
-
- curseforge官网网址 (16)
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle安装补丁 (19)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- c语言编程小知识大全 (17)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- 网站管理平台php源码 (19)
- php小说爬取源码 (23)
- github好玩的php项目 (18)