一种面向混合数据的模糊等价关系构造约简
moboyou 2025-05-12 13:03 22 浏览
摘 要: 基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对属性类别多样性的混合型信息系统,提出一种带权的对象间相似性度量方法,该方法建立每类属性对应的相似性度量函数,再通过归并确立带权的模糊相似矩阵。在转化为模糊等价关系的基础上,采用加入蕴含专家领域知识及用户需求的约简算法。通过数据库中几个数据集样本对属性约简后的数目、精度进行对比,验证了方法的有效性和可行性。
0 引言
粗糙集理论是一种以精确的数学形式处理不确定信息的数学工具,属性约简在保持分类能力不变的前提下获得最小特征子集,是粗糙集理论的核心应用之一。经典粗糙集理论[1-3]通常是处理只包含符号型属性的数据模型,而实际的信息系统中属性和决策的值域是多样性的,有符号型属性,也有连续数值型属性,即混合分类数据。对于混合数据的处理大体可分为两类:一类是离散化方法[4],将数值型属性转化为符号型属性的数据形式,即在数值属性值域中选择合适的分割点,划分成若干由字符标记的不同区域,从而将不同类别属性转化为统一的数据形式再进行约简。如何选择分割点引出了离散化方法的系统分析比较[5],讨论的关键在于分割点数量和位置的设计,缺点在于产生了量化误差,丢失了同种符号表示的区域内不同属性值间的序信息。另一类是对不可分辨关系进行拓展的混合型方法。Hall提出了利用信息熵计算符号变量相关性的特征选择方法[6],Zhou和Qian提出了采用定性信息分解复杂问题的决策树构造方法[7],以及之后提出的混合数据特征选择的方法[8],缺点都是将符号型属性和数值型属性割裂开分析,丢失了分类能力较强的数值属性信息。Kwak和Choi、Peng等人陆续采用Parzen窗方法计算数值型样本概率密度来进行特征选择[9],取得了一定进展。Zadeh提出了模糊集理论[10],认为模糊信息粒化在知识发现过程中极其重要,模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定方法[11-15],使得约简结果能更清晰地体现信息系统的分类能力。Hu采用信息熵的概念度量信息系统的分类能力,在混合数据的处理过程中,得到的对象间相似矩阵数值单一,且整合符号型和数值型属性的过程中丢失很多分类信息[16]。遗传算法应用于混合数据约简的方法,由于本身算法的特点导致计算量大、耗时长[17-18]。
本文重点研究在模糊粗糙集模型框架下如何定义混合数据间带权的相似性度量方法及模糊等价关系,通过定义不同类别属性对应的相似性度量函数,以及带权的模糊相似矩阵,最终确定模糊等价关系;之后通过加入领域专家的经验知识和系统客户的需求偏好对数据进行约简,将约简后的属性数目、精度与其他方法的数据进行对比,以验证方法的有效性和可行性。
1 模糊等价关系及其度量
针对符号型变量的处理,可以利用粗糙集在等价关系的基础上建立对象间关系。但对于数值型变量,等价关系不足以清晰地刻画对象间关系,需要借助模糊等价关系的概念。
给定信息系统S=(U,A),论域U={x1,x2,…,xn},属性集合A=C∪D是条件属性和决策属性的集合,且C∩D=
。本文讨论的混合信息系统的属性集合既有条件属性,也有数值属性。 定义1:给定一个矩阵A=(aij)n×n,若对
i,j=1,2,…,n,满足:(1)自反性:aii=1;(2)对称性:aij=aji;(3)模糊性:aij∈[0,1];(4)传递性:aij≥∨k(aik∧akj),则称矩阵A为模糊等价矩阵。
在以下论述中,用M(R)=(rij)n×n来表示二元关系R的关系矩阵,其中R满足模糊等价关系。
定义4[16]:给定模糊信息系统<U,A,V,f>,A=C∪d,若H(d|B-a)=H(d|B),则属性a是冗余的,若H(d|B-a)>H(d|B),则B是独立的。若满足:(1)H(d|B)=H(d|A);(2)∨a∈B∶H(d|B-a)<H(d|B),则称B是A的属性约简。
下节将利用上述度量,构造混合数据间的模糊等价关系,依据属性重要性的度量进行约简。
2 模糊等价矩阵的构造及算法描述
基于模糊等价关系的数据构造是混合数据分析的重要模型,利用矩阵形式刻画具有不同属性类别的样本间关系。针对符号型属性,Hu[16]根据属性取值是否相等计算样本间的相似度贡献,属性间取其交集得结果,由此矩阵中只见两个单一数值,不能具体地刻画样本间的区分信息,且需针对每个属性做重复计算;刻画不同类别属性间的关系依然采用取其交集的简便算法,在各种属性类别取值丰富多样的信息空间,这种关系构造方法丢失大量的非冗余的有效信息。本节将对混合数据中各个类别属性分别重新进行构造,提出一种带权的对象间相似性度量方法,并且使其最终转化为一个模糊等价关系,在加入量化知识的基础上进行约简。
2.1 模糊相似关系的构造
给定一个包含n个样本的决策系统<U,A,D>,其中A=A1∪A2,A1定义为符号型属性的集合,A2定义为数值型属性的集合,U={x1,x2,…,xn},
,
。本节将描述样本的属性分类处理,分别定义与之对应的唯一函数。
符号型属性的取值是离散的、非有序的,若两个样本的条件属性取值完全相同,则其决策是一致的。因此,不同样本间的区分能力由取值不同的属性来体现,在此引入一个关系矩阵来体现符号型属性集对样本间的贡献度。
数值型属性的取值是连续的、有序的,当两个样本除属性a之外的其余条件属性相同时,针对属性a,若样本x比样本y占优,则x的决策至少不比y差。因此,不同样本间的区分能力由决策不一致的程度(即样本x比样本y占优的程度)来体现。同样定义数值型属性集对样本间的贡献度:
s(xi,xj)表示对象xi比xj在属性a上偏好、占优的程度,若xi比xj占优,则s(xi,xj)>0.5。若xj比xi占优,则s(xi,xj)<0.5。当s(xi,xj)=1时,说明xi比xj绝对占优。矩阵
是s(xi,xj)转化后的对象间模糊相似关系,表示对象xi和xj间的相似性度量。
以上是针对一个数值属性进行的对象间模糊相似处理,对于多个属性,采用交运算来归并不同属性间的模糊关系。假设属性a和属性b分别计算其偏好关系为wij和zij,则对象xi与xj对属性{a}∪{b}量化的偏好关系为min(wij,zij)。
以上论述中提出了带权的对象间相似性度量方法,实现了混合数据间的模糊相似关系构造,但模糊等价关系是计算信息熵的前提,因此,最后还需将模糊相似矩阵转化为模糊等价矩阵。
2.2 模糊等价关系的构造算法及约简算法
本节采用Lee Hauan-Shih给出的关于模糊相似矩阵传递闭包问题的优化算法来进行转化[19],使其满足模糊等价关系的充要条件传递性,具体算法如下:
算法:设模糊相似矩阵为R=(rij)n×n,模糊等价矩阵为R*=(r*ij)n×n
输入:R=(rij)n×n
输出:R的传递闭包R*
(1)令r*ii=1(1≤i≤n);
(2)集合U={rij|j>i}中的元素是从大到小排序的序列;
(3)
①若R*中元素不存在r*ii=
,结束算法;否则转步骤②。 ②对于U中的最大元素ri′j′,若r*i′j′=
,令I={j|r*i′j≠
},J={i|r*ij′≠
},置r*ij=r*ji=ri′j′(i∈I,j∈J),U=U-{ri′′j};否则,转步骤①。
下面将采用基于属性重要性的约简算法进行约简,算法中设置一个信息表T用来存储所有属性值,其中属性元素按照领域专家的经验值和用户的需求偏好多寡来排序。
算法如下:
输入:决策系统S=<U,A,V,f>,A=C∪d,信息表T;
输入:S的属性约简RED。
(1)令RED=
;
(2)令T中元素从大到小进行排序;
(3)
①选择T中第一个属性ai,计算H(d|ai∪RED)以及SIGi(ai,ai∪RED,d)=H(d|RED)-H(d|ai∪RED)
②若SIGi>0,则ai∪RED→RED,T-ai→T,返回
步骤①;否则算法结束。
3 实验分析
本节在MATLAB实验环境下选择UCI数据库中的数据集,验证混合数据的模糊等价关系构造约简方法的有效性,表1列出了数据集的基本信息。可以看出其中数据集WPBC包含一类属性,其他数据集包含两类属性。
表2和表3分别列出了本文方法下的数据集约简结果以及约简后属性数目的统计。
分析表3,与其他三种方法(原始数据下的约简、离散化方法下的约简、模糊熵方法下的约简)[16]支撑的数据相比,本文方法在信息量保持不变的前提下剔除了更多的冗余属性;同时,针对包含一类或两类属性的数据集都进行了有效的约简。表4是采用支持向量机对本文结果与其他几种方法[16]的约简数据进行精度对比。实验结果显示本文方法下约简后的属性精度平均值较高。由此可以看出本文提出的基于模糊等价关系构造的混合数据约简有效地达到了约简的目的,并且得到较优的约简结果。
4 结束语
模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定性方法,基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对混合型信息系统,本文分别提出各类数据的对象间度量以及总体度量方法,建立带权的对象间相似性度量方法,在转化为模糊等价关系的基础上,采用了加入领域专家的经验知识和系统客户需求的约简算法。通过实验数据分析验证了方法的有效性和可行性。
参考文献
[1] PAWLAK Z. Rough sets-theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic, 1991.
[2] 张清华,王国胤,肖雨.粗糙集的近似集[J].软件学报,2012,23(7):1745-1759.
[3] 石梦婷,刘文奇,余高锋,等.变精度软粗糙集[J].计算机工程与应用,2014(1):101-104.
[4] CATLETT J. On changing continuous attributes into ordered discrete attributes[C]. European working session on learning, 1991:164-178.
[5] LIU H, HUSSIANM F, TAN C L, et al. Discretization: an enabling technique[J]. Data Mining and Knowledge Discovery, 2002,6(4):393-423.
[6] HALL M A. Correlation-based feature selection for discrete and numeric class machine learning[C]. In Proc 17th ICML, 2000:359-366.
[7] ZHOU Z H, QIAN C Z. Hybrid decision tree[J]. Knowledge Based Systems, 2002,15(8):515-528.
[8] TANG W. Y, MAO K. Z. Feature selection algorithm for mixed data with both nominal and continuous features[J]. Pattern Recognition Letters, 2007,28(5):563-571.
[9] KWAK N, CHOI C H. Input feature selection by mutual information based on parzen window[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(12): 1667-1671.
[10] ZADEH L. Toward a generalized theory of uncertainty-an outline[J]. Information Science, 2005,172:1-40.
[11] DUBOIS D, PRADE H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General Systems, 1990,17(2-3):191-209.
[12] 范成礼,邢清华,邹志刚,等.基于直觉模糊粗糙集相似度的多属性决策方法[J].计算机工程与应用,2014(7):121-124.
[13] 丁世飞,朱红,许新征,等.基于熵的模糊信息测度研究[J].计算机学报,2012,35(4):796-801.
[14] Pan Zhenghua, Zhang Lijuan. A new fuzzy set with three kinds of negations and applications to decision making in financial investment[J]. Journal of Haman and Ecological Risk Assessment, 2011,17(4):795-780.
[15] 潘正华.模糊知识的三种否定及其集合基础[J].计算机学报,2012,35(7):1421-1428.
[16] Hu Qinghua, Yu Daren, Xie Zongxia. Information-preserving hybrid data reduction based on fuzzy-rough techniques[J]. Pattern Recognition Letters, 2006,27(5):414-423.
[17] HASHMI K, ALHOSBAN A, MALIK Z, et al. WebNeg: a genetic algorithm based approach for service negotiation[C]. In: Foster I, et al., eds. Proc. of the ICWS 2011, Los Alamitos: IEEE CS, 2011:105-112.
[18] 梁亚澜,聂长海.覆盖表生成的遗传算法配置参数优化[J].计算机学报,2012,35(7):1522-1538.
[19] LEE H S. An optimal algorithm for computing the max-min transitive closure of a fuzzy similarity matrix[J]. Fuzzy Sets and Systems, 2011,123(1),129-136.
相关推荐
- NodeJs(一)我对NodeJs的认知
-
欢迎来到我的NodeJs专题系列,更多精彩内容持续更新中,敬请关注!写在前面前面我已经分享了100+篇前端相关的技术文章,都是自己平时工作中遇到的一些问题的问题,还有是我平时自学的内容。但是那些前端文...
- 「Django框架」-Django初识
-
Django介绍Django是一个由Python编写的Web应用框架。它源自一个在线新闻Web站点。Django作为一个从新闻系统生成环境中诞生的框架,是直接面向企业级开发的。Django是一个全功能...
- 什么是PHP?APP开发可以选择PHP编程语言吗?
-
在开发一款APP的过程当中,一支专业的APP开发团队需要UI设计师、前端开发人员、后端开发人员以及测试等等。而熟练掌握PHP编程语言的人才就相当于APP开发团队中的后端开发人员。一般在APP开发中后端...
- php可以做前端吗
-
php可以做前端吗?php不可以做前端,因为php是在服务器端执行的脚本语言,也就是后端语言,主要适用于Web后端开发领域。php简介:PHP(全称:PHP:HypertextPreprocesso...
- PHP多久能学会?比java,python难还是简单呢?
-
PHP即“超文本预处理器”,是一种通用开源脚本语言。PHP是在服务器端执行的脚本语言,与C语言类似,是常用的网站编程语言。PHP独特的语法混合了C、Java、Perl以及PHP自创的语法。利于学习...
- java哪有这细糠啊,PHP是世界上最好的语言!
-
要不说我们要多了解一下其他技术呢,java哪有这好玩应啊。今天分享个php开发的辅助工具:phpenv(当然,php是世界上最好的语言,毋庸置疑)phpenv就是一个开发者工具箱神器,只有拥有了他,你...
- Java和Php的对比
-
(1)开发速度Java是一种面向对象和结构化的语言,开发速度较慢,比如代码更多,耗费较多时间。而PHP是一种解释型语言,开发速度快,代码量少,耗费的时间较少。(2)安全性Java基于字节码形式进行...
- php宝塔搭建实战多端壁纸小程序源码一(wordpress后台安装篇)
-
大家好啊,我是测评君,欢迎来到web测评。本期给大家带来一套php开发的多端壁纸类型的小程序源码,后台是使用wordpress集成的,前端是使用uniapp开发的。今天先给大家分享后台怎么在宝塔里部署...
- PHP中的IMAP扩展简单入门
-
对于邮件处理来说,大家比较熟悉的应该是POP3、SMTP这类的协议,而今天我们介绍的IMAP其实也是非常常用的一种邮件处理协议。它和POP3比较类似,都是以接收处理邮件为主。不过相对于...
- 【推荐】一款免费、全能型的数据库管理神器,效率提升利器
-
如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍HeidiSQL是一款免费的数据库管理工具,适用于与数据库打交道的开发人员和数据库管理员。它支持多种数据...
- Php+Vue.js实现的项目管理系统
-
一个基于Vue.js实现的项目管理系统目前已实现的主要功能项目管理任务管理账号管理文件管理团队管理权限管理多组织管理技术栈PHPVueMySQLRedis相关界面前端源码地址:https://git...
- 让PHP和Node.js同框共舞:解密php-node的革命性玩法!
-
你有没有想过,PHP和Node.js有朝一日能在一个进程里握手言和?不是“后端服务调用后端服务”,也不是“前端请求后端接口”,而是——直接共享内存、互传变量、同步执行逻辑。听起来像是幻想,但今天...
- 8个增强PHP程序安全的函数
-
安全是编程非常重要的一个方面。在任何一种编程语言中,都提供了许多的函数或者模块来确保程序的安全性。在现代网站应用中,经常要获取来自世界各地用户的输入,但是,我们都知道“永远不能相信那些用户输入的数据”...
- Peachpie —— .NET 的 PHP 编译器
-
Peachpie是一款.NET平台的PHP编译器,主要特性:物联网:可以使用PHP开发WindowsIoT设备应用,至少节省30%的开发支出安全:可以在最安全的平台上运行PH...
- PHP的垃圾回收机制-PHP高级面试题+详解
-
ps:本篇内容包括精选面试题与知识篇。PHP面试题关于PHP的垃圾回收机制,PHP的垃圾回收机制引用计数(referencecounting)GC机制,PHP可以自动进行内存管理,清除不需要的...
- 一周热门
- 最近发表
- 标签列表
-
- curseforge官网网址 (16)
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle安装补丁 (19)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- c语言编程小知识大全 (17)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- 网站管理平台php源码 (19)
- php小说爬取源码 (23)
- github好玩的php项目 (18)