百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

学生评教留言的倾向性分析(所教学生评价意见)

moboyou 2025-05-10 22:37 44 浏览

摘要:学生评教留言经过逐年累积,已经形成一个巨量的信息资源,如何进行挖掘和分析这些资源已经成为一项紧迫的任务。本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析,采用ICTCLAS分词软件进行分词,利用MATLAB软件进行矩阵奇异值分解和降维,使用支持向量机进行训练和预测数据,从而能够对学生留言的情感倾向性给出很好的预测结果。最后通过实例说明了文中算法的有效性。

0引言

学生评教留言经过逐年累积,已经形成一个巨量的信息资源,对其进行数据挖掘已经成为刻不容缓的工作,如何更好地利用大量的留言体现了一个学校对其教学水平和方法进行提升和改进的能力,一个高水平的学校应积极发展对学生留言的挖掘,对其进行分析、处理并最后得出结论,及时了解和分析教师的教学现状和学生们的听课反馈。

国内外相关学者对文本倾向性分析进行了大量研究[15],虽然英文的倾向性研究已经很成熟并得到了丰硕成果[617],但是中文文本的倾向性研究还处在发展阶段,有着广阔的发展空间。柴玉梅等[1]通过分析中文文本内容褒贬色彩的客观性和褒贬倾向性分类的可行性,将特征选择方法和褒贬特征提取技术结合起来,实现了名人网页的褒贬倾向性分类;唐慧丰等[2]通过对中文文本不同分类方法的对比分析,提出采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,在情感分类方面取得较好的效果;Tan等[6]针对中文文本,通过对四种特征选择方法和五种学习方法进行实验,提出信息增益特征选择方法与SVM进行组合,能够得到较好的预测结果;Prabowo等[7]提出一种规则分类、监督学习和机器学习相结合的方法,能够对电影评论、产品评论和MySpace留言进行倾向性分析;Li等[8]提出结合Kmeans聚类算法和SVM来实现无监督学习的方法,并利用此算法进行在线论坛热点的侦探和预测。

Tan等[6]针对中文文本,通过使用MI(Mutual Information)、IG(Information Gain)、CHI(CHI Statistics)和DF(Document Frequency)四种特征选择方法和质心分类、K近邻、Window分类、贝叶斯分类、支持向量机五种分类方法进行实验,提出信息增益特征选择方法与SVM进行组合,得到较好的预测结果,但是其只是针对1 021个文本数据进行实验,并未能够将其应用到学生评教留言中,学生评教留言具有一定的特殊性,它是对教师教学活动的评价,其中含有对教师丰富的情感,并非只是对一件物品的评价。针对学生评教留言,本文提出了一个学生评教留言的倾向性分析算法。首先,利用ICTCLAS对2 500条留言文本进行分词,其次,进行词性过滤,保留名词、动词、形容词和副词四类词语,再次,进行词语过滤,使用基于频率、信息增益、条件概率比和期望值差异四种方法进行实验,然后,生成词频矩阵,并将矩阵进行奇异值分解、降维、去除冗余数据操作,最后,利用SVM将生成的矩阵进行训练和预测。本文特别针对学生评教留言,为实际的教学评价活动提供一定的决策支持,能够生成较好的预测结果,使得此算法能够更好地应用于实际的教务系统和教学活动中。

1算法流程

本文特别针对学生评教留言,提出一种基于期望值差异的词语过滤方法与支持向量机相结合的倾向性分析算法,算法流程如图1所示。

算法流程如下:

输入: 500条留言作为训练数据, 2 060条留言作为预测数据。

输出:2 060条预测数据的倾向性结果,以及本算法的正确率和拒识率。

(1)分词。用ICTCLAS50分别对训练数据和预测数据进行分词。

(2)词性过滤。保留名词、动词、形容词和副词四类词性词语。

(3)词语过滤。利用基于频率、信息增益、条件概率比和期望值差异的过滤方法对词语进行过滤。

(4)生成词频矩阵。以“词项×文档矩阵”的格式生成词频矩阵。

(5)矩阵处理。获得训练文件,对矩阵进行奇异值分解、降维、去除冗余数据后生成训练文件。

(6)训练。用LIBSVM对训练集进行训练,获得训练模型。

(7)预测。将预测集导入LIBSVM,利用上一步获得的训练模型进行预测。获得倾向性结果,计算本算法的正确率和拒识率。

2学生留言的倾向性分析

2.1学生留言的预处理

2.1.1训练数据的选取

训练数据的质量直接决定预测的效果,训练数据是需要精挑细选的一些留言数据,必须具有良好的分类代表性,选取遵循以下原则:

(1)需要过滤掉所有空留言、只含有标点符号的留言以及不包含任何词语的文本。

(2)重复性留方过滤。完全重复的留言,以及留言文字相同但是有标点符号不同的文本需要删除,因为它们的向量基本相同。向量相同的留言放到libsvm中处理只会增加计算量。

(3)训练数据中各类的数目要大体相当。

(4)删除部分表达意思相近的留言。

(5)训练数据不宜选取过多,也不宜过少,如果过多就会存在很多重复性的向量,如果过少,训练集太小,不能很好地进行预测。训练集的大小在500条左右即可。

基于以上选取数据的原则,本文从数据库中抽取了500条数量相当的差评留言和好评留言。

2.1.2双重否定短语的确定

一般情况下,一条留言中出现否定词就会被判定为差评。例如:“讲课太过于粗糙,条例不太清晰”,这样的留言中含有“不”,会被判定为差评,这样进行判定看似是理所当然的,实则不然,例如留言“注意启发学生课外阅读,不拘泥于课本,能调动学生积极性,活跃课堂气氛”,其中含有“不”,但是“不”后面跟的是“拘泥”,在语言中,双重否定表达的是肯定意思,根据语义分析这是好评,但是训练器把它标记成差评了,这样不符合客观事实。为了解决这个问题,本文把两个表达否定意义的词语组合成一个短语,形成一个表示肯定意义的短语,优先对这些组合起来的二元词语匹配,并在后续处理过程中把这些短语当做一个词语对待。

在留言中经常出现的双重否定词语包括:不拘泥、不单纯、不忘、不脱离、不失、不死、不死板、不拘于、不枯燥、不只、不少、不错、不容易等等。

2.2特征词的四种选择标准

2.2.1基于频率的过滤方法

基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清”出现的次数只能是一次,而不是两次,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况需把所有词语的词性去掉之后再统计这个词语出现的次数。去掉出现频率低于二次的留言之后,还剩下407个词语。

2.2.2基于信息增益的过滤方法

基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值:

c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。按照IG值的大小排序,获取IG值较大的407个词语。

2.2.3基于条件概率比的过滤方法

基于条件概率比的过滤方法,根据下面公式计算P(word),P1=P(word|C1),P2=P(word|C2):

在这里P(word)越小越有意义,说明word在不同类别中出现的概率差异大。若P1/P2=1或者P2/P1=1,则说明word的出现与类别判断无关,可去掉;若P1/P2=0或者P2/P1=0,则说明word的出现与类别高度有关,此类词语需保留。

2.2.4基于期望值差异的过滤方法

基于期望值差异的过滤方法,其具体计算方法是:一个词项word在类i中出现的期望值ei=word在所有数据表中出现的总次数×P(Ci),令fi表示word在类i中出现的实际次数,则

其中E的值越大越有意义。

3实验结果分析

在Intel双核CPU、主频3.06 GHz、内存2 GB的台式机上实现一个实例,来验证本文算法的有效性。

3.1数据集

本文使用山东女子学院教务系统2011年评教数据作为数据来源,原始数据来源于教务系统中的学生留言,共计3 000条。由于这些数据包含无意义数据,经过筛选,从前1 000条数据中选出500条作为训练数据集,预测数据集为从后2 000条中筛选出的1 309条数据。

3.2训练

本文基于真实数据集,利用四种词语过滤算法,使用SVM进行训练。训练结果如表1和图2所示,表1中标记为“0”的训练结果为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。

从表1和图2可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法训练数据的正确率达到了80%以上,错误率都低于20%,但是基于条件概率比的过滤方法正确率不到50%。从这些数据来看,针对学生评教留言文本,选择基于频率、信息增益、期望值差异的词语过滤方法能够达到较好的效果。

3.3预测

预测结果如表2和图3所示,表2中标记为“0”的训练结果表示为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。

从表2和图3可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法预测数据的正确率达到了70%以上,错误率都低于30%,基于期望值差异的过滤方法错误率低于20%,与其他三种算法相比,基于期望值差异的词语过滤算法效果最好。从这些数据来看,针对学生评教留言文本,基于期望值差异的词语过滤算法与SVM结合能够达到较好的效果。

4结论

本文特别针对高等学校学生评教留言,通过实验研究了基于频率、信息增益、条件概率比、期望值差异的四种词语过滤方法与支持向量机结合,最终给出文本倾向性结果的效果,通过对比分析,得出基于期望值差异的词语过滤方法与支持向量机结合的算法,能够对学生评教留言的倾向性给出较优的预测结果。

参考文献

[1] 唐慧丰. 基于监督学习的中文情感分类技术比较研究[J].中文信息学报, 2007,21(6):8894.

[2] 柴玉梅,熊德兰,昝红英. Web文本褒贬倾向性分类研究[J].计算机工程, 2006,12(9):8991.

[3] 杨超,冯时,王大玲,等.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统, 2010,31(4):691695.

[4] 何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用, 2011,31(8):21302137.

[5] 李艳红,程翔.基于网络论坛文本挖掘的笔记本电脑满意度研究[J].微型机与应用,2014,33(18):6165.

[6] TAN S,ZHANG J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications, 2008,34(4):26222629.

[7] PRABOWO R, THELWALL M. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009,3(2):143157.

[8] LI N, WU D D. Using text mining and sentiment analysis for online forums hotspot detection and forecast[J]. Decision Support Systems, 2010,48(2):354368.

[9] STEFANO B,ANDREA E, FABRIZIO S.SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining[C]. Proceedings of the Seventh Conference on International Language Resources and Evaluation. Malta:European Language Resources Association ,2010:22002204.

[10] PANG B,LEE L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008,2(12):131135.

[11] ERIK C,BJORN S, YUNQING X, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE Intelligent Systems, 2013,2(28):1521.

[12] LIU B,ZHANG L. A survey of opinion mining and sentiment analysis[M].New York:Springer US, 2012.

[13] THERESA W,JANYCE W, PAUL H. Recognizing contextual polarity in phraselevel sentiment analysis[C]. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2005:347354.

相关推荐

【开源推荐】给大家推荐个基于ChatGPT的PHP开发库 openai-php-api

有了这个库大家就可以愉快的使用PHP对接chatGPT的官方接口了,至于对接了官方接口想要做什么就看你自己的啦环境要求PHP7.4或以上composer1.6.5以上支持框架Laravel、Sym...

PHP使用Phar打包控制台程序

1.介绍1.1介绍php脚本有着非常强大的库支持,可以轻松做出特别强大的程序。php不仅仅可以搭建各种各样的网站系统、平台系统,还可以开发基于控制台运行的程序。不过使用php开发的控制台程序在使用...

PHP实现URL编码、Base64编码、MD5编码的方法

1.介绍1.1介绍今天开始福哥要给大家讲解关于字符编码的知识,所谓字符编码就是将一个字符串或者是一个二进制字节数组里面的每一个字符根据一定的规则替换成一个或者多个其他字符的过程。字符编码的意义有很...

雷卯针对易百纳海思Hi3521D开发板防雷防静电方案

一、应用场景1、医疗电子2、安防监控3、数字标牌4、视频广告5、环境监测二、功能概述1CPU:ARMCortexA7双核@Max.1.3GHz2H.265/H.264&JPEG多码流编...

不折腾无人生-安卓盒子安装Linux系统armbian纪实

不折腾无人生-安卓盒子安装Linux系统armbian纪实小编的x96max+(晶晨Amlogics905x3)安卓盒子已安装二个系统,原装安卓9.0和tf卡上的CoreELEC9.2.3,可玩性...

全网最简单的玩客云刷casaos方法及后续使用心得

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:不鸣de前几天在站内看见很多值友分享了玩客云刷casaos,被简洁的操作界面种草,于是我将之前刷了powersee大神网页导航版armbia...

最新评测:英特尔旗舰 Alder Lake 处理器击败苹果M1 Max

据国外媒体tomshardware报道,英特尔最新的酷睿i9-12900HK处理器刚刚赢得了移动x86与Arm的性能大战,但这是有代价的。这款移动14核AlderLake芯片在多个工作负...

创维酷开Max系列电视开启ADB并安装第三方应用教程

前言创维酷开系列智能电视采用的是相对封闭的系统,虽然设置中提供了安装未知应用的选项,但由于电视安装位置的限制,往往难以直接使用USB接口安装应用。本文将详细介绍如何通过ADB方式在创维酷开Max系列电...

苹果 Mac Studio,再次刷新我们对个人电脑的认知

由两块M1Max组成的M1Ultra,成为了M1系列的最后一块拼图,并完成了整个M1SoC宇宙。这就好像《复仇者联盟4:终局之战》对于漫威第一阶段,十几年勤恳的布局,最终达到顶峰...

「必买」盘点2021年男人们的败家清单,越“败”越香

心里总想买点啥?看看《必买》,全网最有料的场景种草指南。草原割不尽,春风吹又生。在过去的2021年,不断被各种数码产品种草,一直在买买买,剁手不停。大部分产品都经过详细的对比做足了功课,也有部分是一时...

Opus音频编解码在arm上的移植

一、简介现在有个需求,在局域网内实现实时语音,传输层协议使用UDP协议,如果直接使用ALSA进行录制音频流并发送到另一端进行播放,音质会非常差,而且断断续续,原因如下:采样频率:fm=44.1K...

N ARM MINI空气减震系统臂体安装指南及应用说明

距离MOVMAX移动大师NARMMINI发布已经过去一段时间了,不少收到NARMMINI的小伙伴也已经迅速将产品投入到自己的车拍工作中去了。而在实际工作过程中我们也收到了用户的部分疑问和反馈:...

搜索引擎中的性能怪兽,Elasticsearch挑战者之Manticore Search

ManticoreSearch简介ManticoreSearch是一个使用C++开发的高性能搜索引擎,创建于2017年,其前身是SphinxSearch。ManticoreSe...

10个运维拿来就用的 Shell 脚本,用了才知道有多爽

1、监控MySQL主从同步状态是否异常脚本#!/bin/bashHOST=localhostUSER=rootPASSWD=123.comIO_SQL_STATUS=$(mysql-h$...

PHP7.0.0正式版开放下载:速度大提升

IT之家讯PHP发布经理AnatolBelski在GitHub发布了PHP7.0.0正式版,该版本在速度提升上面有非常大的进步,比5.6版本提速两倍,已经接近Facebook开发的PHP执行引擎...