百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

学生评教留言的倾向性分析(所教学生评价意见)

moboyou 2025-05-10 22:37 49 浏览

摘要:学生评教留言经过逐年累积,已经形成一个巨量的信息资源,如何进行挖掘和分析这些资源已经成为一项紧迫的任务。本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析,采用ICTCLAS分词软件进行分词,利用MATLAB软件进行矩阵奇异值分解和降维,使用支持向量机进行训练和预测数据,从而能够对学生留言的情感倾向性给出很好的预测结果。最后通过实例说明了文中算法的有效性。

0引言

学生评教留言经过逐年累积,已经形成一个巨量的信息资源,对其进行数据挖掘已经成为刻不容缓的工作,如何更好地利用大量的留言体现了一个学校对其教学水平和方法进行提升和改进的能力,一个高水平的学校应积极发展对学生留言的挖掘,对其进行分析、处理并最后得出结论,及时了解和分析教师的教学现状和学生们的听课反馈。

国内外相关学者对文本倾向性分析进行了大量研究[15],虽然英文的倾向性研究已经很成熟并得到了丰硕成果[617],但是中文文本的倾向性研究还处在发展阶段,有着广阔的发展空间。柴玉梅等[1]通过分析中文文本内容褒贬色彩的客观性和褒贬倾向性分类的可行性,将特征选择方法和褒贬特征提取技术结合起来,实现了名人网页的褒贬倾向性分类;唐慧丰等[2]通过对中文文本不同分类方法的对比分析,提出采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,在情感分类方面取得较好的效果;Tan等[6]针对中文文本,通过对四种特征选择方法和五种学习方法进行实验,提出信息增益特征选择方法与SVM进行组合,能够得到较好的预测结果;Prabowo等[7]提出一种规则分类、监督学习和机器学习相结合的方法,能够对电影评论、产品评论和MySpace留言进行倾向性分析;Li等[8]提出结合Kmeans聚类算法和SVM来实现无监督学习的方法,并利用此算法进行在线论坛热点的侦探和预测。

Tan等[6]针对中文文本,通过使用MI(Mutual Information)、IG(Information Gain)、CHI(CHI Statistics)和DF(Document Frequency)四种特征选择方法和质心分类、K近邻、Window分类、贝叶斯分类、支持向量机五种分类方法进行实验,提出信息增益特征选择方法与SVM进行组合,得到较好的预测结果,但是其只是针对1 021个文本数据进行实验,并未能够将其应用到学生评教留言中,学生评教留言具有一定的特殊性,它是对教师教学活动的评价,其中含有对教师丰富的情感,并非只是对一件物品的评价。针对学生评教留言,本文提出了一个学生评教留言的倾向性分析算法。首先,利用ICTCLAS对2 500条留言文本进行分词,其次,进行词性过滤,保留名词、动词、形容词和副词四类词语,再次,进行词语过滤,使用基于频率、信息增益、条件概率比和期望值差异四种方法进行实验,然后,生成词频矩阵,并将矩阵进行奇异值分解、降维、去除冗余数据操作,最后,利用SVM将生成的矩阵进行训练和预测。本文特别针对学生评教留言,为实际的教学评价活动提供一定的决策支持,能够生成较好的预测结果,使得此算法能够更好地应用于实际的教务系统和教学活动中。

1算法流程

本文特别针对学生评教留言,提出一种基于期望值差异的词语过滤方法与支持向量机相结合的倾向性分析算法,算法流程如图1所示。

算法流程如下:

输入: 500条留言作为训练数据, 2 060条留言作为预测数据。

输出:2 060条预测数据的倾向性结果,以及本算法的正确率和拒识率。

(1)分词。用ICTCLAS50分别对训练数据和预测数据进行分词。

(2)词性过滤。保留名词、动词、形容词和副词四类词性词语。

(3)词语过滤。利用基于频率、信息增益、条件概率比和期望值差异的过滤方法对词语进行过滤。

(4)生成词频矩阵。以“词项×文档矩阵”的格式生成词频矩阵。

(5)矩阵处理。获得训练文件,对矩阵进行奇异值分解、降维、去除冗余数据后生成训练文件。

(6)训练。用LIBSVM对训练集进行训练,获得训练模型。

(7)预测。将预测集导入LIBSVM,利用上一步获得的训练模型进行预测。获得倾向性结果,计算本算法的正确率和拒识率。

2学生留言的倾向性分析

2.1学生留言的预处理

2.1.1训练数据的选取

训练数据的质量直接决定预测的效果,训练数据是需要精挑细选的一些留言数据,必须具有良好的分类代表性,选取遵循以下原则:

(1)需要过滤掉所有空留言、只含有标点符号的留言以及不包含任何词语的文本。

(2)重复性留方过滤。完全重复的留言,以及留言文字相同但是有标点符号不同的文本需要删除,因为它们的向量基本相同。向量相同的留言放到libsvm中处理只会增加计算量。

(3)训练数据中各类的数目要大体相当。

(4)删除部分表达意思相近的留言。

(5)训练数据不宜选取过多,也不宜过少,如果过多就会存在很多重复性的向量,如果过少,训练集太小,不能很好地进行预测。训练集的大小在500条左右即可。

基于以上选取数据的原则,本文从数据库中抽取了500条数量相当的差评留言和好评留言。

2.1.2双重否定短语的确定

一般情况下,一条留言中出现否定词就会被判定为差评。例如:“讲课太过于粗糙,条例不太清晰”,这样的留言中含有“不”,会被判定为差评,这样进行判定看似是理所当然的,实则不然,例如留言“注意启发学生课外阅读,不拘泥于课本,能调动学生积极性,活跃课堂气氛”,其中含有“不”,但是“不”后面跟的是“拘泥”,在语言中,双重否定表达的是肯定意思,根据语义分析这是好评,但是训练器把它标记成差评了,这样不符合客观事实。为了解决这个问题,本文把两个表达否定意义的词语组合成一个短语,形成一个表示肯定意义的短语,优先对这些组合起来的二元词语匹配,并在后续处理过程中把这些短语当做一个词语对待。

在留言中经常出现的双重否定词语包括:不拘泥、不单纯、不忘、不脱离、不失、不死、不死板、不拘于、不枯燥、不只、不少、不错、不容易等等。

2.2特征词的四种选择标准

2.2.1基于频率的过滤方法

基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清”出现的次数只能是一次,而不是两次,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况需把所有词语的词性去掉之后再统计这个词语出现的次数。去掉出现频率低于二次的留言之后,还剩下407个词语。

2.2.2基于信息增益的过滤方法

基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值:

c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。按照IG值的大小排序,获取IG值较大的407个词语。

2.2.3基于条件概率比的过滤方法

基于条件概率比的过滤方法,根据下面公式计算P(word),P1=P(word|C1),P2=P(word|C2):

在这里P(word)越小越有意义,说明word在不同类别中出现的概率差异大。若P1/P2=1或者P2/P1=1,则说明word的出现与类别判断无关,可去掉;若P1/P2=0或者P2/P1=0,则说明word的出现与类别高度有关,此类词语需保留。

2.2.4基于期望值差异的过滤方法

基于期望值差异的过滤方法,其具体计算方法是:一个词项word在类i中出现的期望值ei=word在所有数据表中出现的总次数×P(Ci),令fi表示word在类i中出现的实际次数,则

其中E的值越大越有意义。

3实验结果分析

在Intel双核CPU、主频3.06 GHz、内存2 GB的台式机上实现一个实例,来验证本文算法的有效性。

3.1数据集

本文使用山东女子学院教务系统2011年评教数据作为数据来源,原始数据来源于教务系统中的学生留言,共计3 000条。由于这些数据包含无意义数据,经过筛选,从前1 000条数据中选出500条作为训练数据集,预测数据集为从后2 000条中筛选出的1 309条数据。

3.2训练

本文基于真实数据集,利用四种词语过滤算法,使用SVM进行训练。训练结果如表1和图2所示,表1中标记为“0”的训练结果为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。

从表1和图2可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法训练数据的正确率达到了80%以上,错误率都低于20%,但是基于条件概率比的过滤方法正确率不到50%。从这些数据来看,针对学生评教留言文本,选择基于频率、信息增益、期望值差异的词语过滤方法能够达到较好的效果。

3.3预测

预测结果如表2和图3所示,表2中标记为“0”的训练结果表示为负面评价,标记为“1”的训练结果表示为正面评价,每个单元格中的三个数字分别表示正确率、错误率和拒识率。

从表2和图3可以看出,基于频率的过滤方法、基于信息增益的过滤方法、基于期望值差异的过滤方法预测数据的正确率达到了70%以上,错误率都低于30%,基于期望值差异的过滤方法错误率低于20%,与其他三种算法相比,基于期望值差异的词语过滤算法效果最好。从这些数据来看,针对学生评教留言文本,基于期望值差异的词语过滤算法与SVM结合能够达到较好的效果。

4结论

本文特别针对高等学校学生评教留言,通过实验研究了基于频率、信息增益、条件概率比、期望值差异的四种词语过滤方法与支持向量机结合,最终给出文本倾向性结果的效果,通过对比分析,得出基于期望值差异的词语过滤方法与支持向量机结合的算法,能够对学生评教留言的倾向性给出较优的预测结果。

参考文献

[1] 唐慧丰. 基于监督学习的中文情感分类技术比较研究[J].中文信息学报, 2007,21(6):8894.

[2] 柴玉梅,熊德兰,昝红英. Web文本褒贬倾向性分类研究[J].计算机工程, 2006,12(9):8991.

[3] 杨超,冯时,王大玲,等.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统, 2010,31(4):691695.

[4] 何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用, 2011,31(8):21302137.

[5] 李艳红,程翔.基于网络论坛文本挖掘的笔记本电脑满意度研究[J].微型机与应用,2014,33(18):6165.

[6] TAN S,ZHANG J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications, 2008,34(4):26222629.

[7] PRABOWO R, THELWALL M. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009,3(2):143157.

[8] LI N, WU D D. Using text mining and sentiment analysis for online forums hotspot detection and forecast[J]. Decision Support Systems, 2010,48(2):354368.

[9] STEFANO B,ANDREA E, FABRIZIO S.SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining[C]. Proceedings of the Seventh Conference on International Language Resources and Evaluation. Malta:European Language Resources Association ,2010:22002204.

[10] PANG B,LEE L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008,2(12):131135.

[11] ERIK C,BJORN S, YUNQING X, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE Intelligent Systems, 2013,2(28):1521.

[12] LIU B,ZHANG L. A survey of opinion mining and sentiment analysis[M].New York:Springer US, 2012.

[13] THERESA W,JANYCE W, PAUL H. Recognizing contextual polarity in phraselevel sentiment analysis[C]. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2005:347354.

相关推荐

Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录

首先介绍一下此函数:SHEETSNAME函数用于获取工作表的名称,有三个可选参数。语法:=SHEETSNAME([参照区域],[结果方向],[工作表范围])(参照区域,可选。给出参照,只返回参照单元格...

Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用

一、函数概述HOUR函数是Excel中用于提取时间值小时部分的日期时间函数,返回0(12:00AM)到23(11:00PM)之间的整数。该函数在时间数据分析、考勤统计、日程安排等场景中应用广泛。语...

Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用

原创版权所有介绍一个信息管理系统,要求可以实现:多条件、模糊查找,手动输入的内容能去空格。先看效果,如下图动画演示这样的一个效果要怎样实现呢?本文所用函数有Filter和Search。先用filter...

FILTER函数介绍及经典用法12:FILTER+切片器的应用

EXCEL函数技巧:FILTER经典用法12。FILTER+切片器制作筛选按钮。FILTER的函数的经典用法12是用FILTER的函数和切片器制作一个筛选按钮。像左边的原始数据,右边想要制作一...

office办公应用网站推荐_office办公软件大全

以下是针对Office办公应用(Word/Excel/PPT等)的免费学习网站推荐,涵盖官方教程、综合平台及垂直领域资源,适合不同学习需求:一、官方权威资源1.微软Office官方培训...

WPS/Excel职场办公最常用的60个函数大全(含卡片),效率翻倍!

办公最常用的60个函数大全:从入门到精通,效率翻倍!在职场中,WPS/Excel几乎是每个人都离不开的工具,而函数则是其灵魂。掌握常用的函数,不仅能大幅提升工作效率,还能让你在数据处理、报表分析、自动...

收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程

原创版权所有全程图解,方便阅读,内容比较多,请先收藏!Xlookup是Vlookup的升级函数,解决了Vlookup的所有缺点,可以完全取代Vlookup,学完本文后你将可以应对所有的查找难题,内容...

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数在电商运营、物流对账等工作中,经常需要统计快递“揽收到签收”的耗时——比如判断某快递公司是否符合“3天内送达”的服务承...

Excel函数公式教程(490个实例详解)

Excel函数公式教程(490个实例详解)管理层的财务人员为什么那么厉害?就是因为他们精通excel技能!财务人员在日常工作中,经常会用到Excel财务函数公式,比如财务报表分析、工资核算、库存管理等...

Excel(WPS表格)Tocol函数应用技巧案例解读,建议收藏备用!

工作中,经常需要从多个单元格区域中提取唯一值,如体育赛事报名信息中提取唯一的参赛者信息等,此时如果复制粘贴然后去重,效率就会很低。如果能合理利用Tocol函数,将会极大地提高工作效率。一、功能及语法结...

Excel中的SCAN函数公式,把计算过程理清,你就会了

Excel新版本里面,除了出现非常好用的xlookup,Filter公式之外,还更新一批自定义函数,可以像写代码一样写公式其中SCAN函数公式,也非常强大,它是一个循环函数,今天来了解这个函数公式的计...

Excel(WPS表格)中多列去重就用Tocol+Unique组合函数,简单高效

在数据的分析和处理中,“去重”一直是绕不开的话题,如果单列去重,可以使用Unique函数完成,如果多列去重,如下图:从数据信息中可以看到,每位参赛者参加了多项运动,如果想知道去重后的参赛者有多少人,该...

Excel(WPS表格)函数Groupby,聚合统计,快速提高效率!

在前期的内容中,我们讲了很多的统计函数,如Sum系列、Average系列、Count系列、Rank系列等等……但如果用一个函数实现类似数据透视表的功能,就必须用Groupby函数,按指定字段进行聚合汇...

Excel新版本,IFS函数公式,太强大了!

我们举一个工作实例,现在需要计算业务员的奖励数据,右边是公司的奖励标准:在新版本的函数公式出来之前,我们需要使用IF函数公式来解决1、IF函数公式IF函数公式由三个参数组成,IF(判断条件,对的时候返...

Excel不用函数公式数据透视表,1秒完成多列项目汇总统计

如何将这里的多组数据进行汇总统计?每组数据当中一列是不同菜品,另一列就是该菜品的销售数量。如何进行汇总统计得到所有的菜品销售数量的求和、技术、平均、最大、最小值等数据?不用函数公式和数据透视表,一秒就...