基于区分度及可信度的学生评教模型的构建 - 行业动态

摘要：本文介绍了学生评教在教学质量保障中重要意义，以及学生评教在我国发展的简要历程。首先详细介绍了当前学生评教模型中的运行机制及存在的问题。基于此，笔者构建了一套基于区分度及可信度的学生评教模型，并详细阐述此模型的整体架构、运行机制，同时利用新旧评教模型对同一被评教对象和参评对象进行评教后的不同评教结果进行了分析对比，最后对新评教模型的特点进行了总结分析。

作者：王力纲、何汉武

教学质量作为人才培养质量保障体系非常重要的一环，受到全社会及各个高校的高度重视。为保障教学质量得到有效监测和及时反馈，很多高校通过 “教育消费者” 密切度最相关的活动即 “学生评教” 这一举措来实施监测并反馈教学质量情况，从而促进教学质量的提高。教学管理部门将学生评教作为监控及提高教学质量水平的重要手段，学生评教结果作为教师职称晋升、年度评优的重要考核指标，有些甚至作为教师个人教学档案永久记录。随着信息化技术的发展，学生评教已经由最初的发放纸质评教材料实现学生评教，到利用现代互联网技术实现学生网上评教，到利用信息技术甄别出有效评教数据而实现更加科学、有效的评教模型来满足评教的目标等。本文通过深入调查、分析研究当前各个高校学生评教的现状，对目前高校普遍使用的学生评教模型进行分析，剖析现有学生评教模型存在的主要问题。从实际存在的问题出发来构建基于区分度及可信度学生评教模型，力求解决当前高校学生评教中存在的各种问题。

一、学生评教的意义与现有学生评教模型分析

（一）学生评教的重要意义

从经济学角度看，学生评教是教育消费者（学生）对其产品效果及质量进行直接客观的评价，这种由终端消费群体直接为产品质量及产品效果给出评价意见，是保护消费者自身权益也是帮助教育产品提供商（高校）提升产品质量最好的办法。作为教学管理部门，学生评教是其及时收集、有效了解教师课堂教学情况与教学效果的重要手段之一；同时也是尊重学生权益，保障和提高高校教学质量水平的重要举措，因此学生评教被当前国内外各个高校广泛采用。

（二）学生评教在我国高校的发展历程
从陈玉琨、李如海^［１］和商弘、章飞军^［２］的文中了解到：我国的高校学生评教活动是从上世纪８０年代开始在各个高校陆续实施，经过了近３０多年的发展，经历了从萌芽、试点实践到蓬勃发展，从自觉行为、初步研究、学习国外到系统研究的不同历史阶段，无论是在学生评教的理论研究还是在实践研究上都取得了巨大的进步。从个别高校的试点，发展到如今几乎得到所有高校的践行。在学生评教的手段上经历了从当初的使用纸质评教材料评教发展到当今利用互联网技术进行网上学生评教活动。经过３０多年的发展，基于学生评教的理论研究及实践研究已取得了丰富的成果，教学管理部门及教师的认可度、重视度越来越高。

（三）对当前高校学生评教模型研究分析
当前，学生评教在各个高校都已作为重要的教学质量及效果监测与反馈手段在运行，其构建的学生评教系统模型基本结构如下。

１. 根据不同类型课程性质构建学生评教指标笔者调查了广东省及浙江省多所高等院校的学生评教指标体系结构发现：学生评教的指标库体系基本可分为理论课类、实验类、课程设计类、实习类、体育类指标体系等，而且每类指标的构建都会经过非常严谨的程序来讨论设定。在拟定评教指标时，各个高校均由拥有多年教学经验的专家、教授、承担课程授课的教师以及直接参与评教的学生代表来共同研究讨论拟定。笔者通过查阅相关文献发现，目前在评教指标体系方面，国内院校普遍都是采用二级结构进行指标设计，将教学态度、教学方法、教学内容、教学效果设计成一级指标，然后根据不同的课程性质（如理论课、实验课、课程设计、实习等）来研究设计不同的二级指标。当前在评教指标体系的研究设计上评教考核内容相当完善。

２. 评教体系表的指标组成结构

在评教体系表的指标组成上，理论课评教体系表由理论课类型的评教指标体系组成，实验类体系表由实验类指标体系组成，以此类推。从国内高校学生评教指标体系的结构组成上看，大致分为两种：一是单层结构，典型的高校有《北京师范大学教师教学质量评价表》，包括两部分内容，第一部分有２０项评价指标，第二部分分为４项评价指标 ^{［ 3 ］［４］} ；二是具有二级结构，第一级基本分为教学态度、教学内容、教学方法、教学效果四个观测点指标，第二级指标内容各具特色，根据不同课程性质进行设置。典型代表为北京外国语学院的《综合外语课程教学质量评估体系表》，第一级分为教学态度、教学水平、教学方法、教学效果四个部分，第二级分为１５项评价内容；这两种结构的评价代表着国内目前的主流结构，也都能较科学、真实地评价课堂教学质量。但在实际运用中，采用二级结构组成评教模板的高校明显多于采用单层结构模板的高校。笔者查阅相关文献发现：各个高校设置的每种类型的评教体系表中，二级评价指标均保持在２０项之内，大部分高校将评教指标个数控制在１５以内。在评价体系表分数的设定上，每套评教体系表总分设为１００分，每项二级评教指标分数均占有一定的分值，其分值依据其在此套模板中的重要程度来设定，大多运用专家打分法或层次分析法等方法对其权重进行科学的计算。每条评价指标设定４ -５个答案供参评对象（学生）进行选择，每个评价指标答案对应着不同等级的评定分数。学生登录评教系统后，选择评价的某门课程及任课老师，针对每一个评价指标进行评价，每选择一个答案就会自动记录对应的指标分值。以下表１为某高校的理论课评教指标体系表。

３. 学生评教的组织实施

笔者调查广东省相关高校及浙江省几所高校的学生评教组织实施情况发现，学生评教的组织实施流程大致为：学校的教学管理部门先针对每种不同类型的课程构建评教指标体系表，科学合理地设定好表中每条指标的对应分值；然后组织学生评教的管理人员将每学期需要进行评教的课程按评教类型进行分类，将其应用到需要评教的体系表类型上；最后在校园网发布相关学生评教的通知信息，通知各个学院组织学生在限定时间内参与学生评教。为提高参评率以及提高学生评教的可信度，学校对学生评教任务的实施机制进行了优化。任课教师提交完成绩后，设定自动开放这门课的学生评教，学生需要查看成绩时，必须先进行学生评教后才能查看该门课程成绩，使学生评教不受该门课程成绩影响从而提高学生评教的可信度。开放时间一般为学期中下旬，一直持续到第二学期开学初才关闭评教系统。此种模式在提高学生的参评率上确实达到了很好的效果。

４. 学生评教结果的统计分析及利用

评教结果的处理非常重要，也是学生评教模型中最重要的一个环节。一个优秀的学生评教模型应该是能够识别出评教样本数据中的 “无效数据”。在作者的调研过程中发现，很多高校对 “无效评教数据” 的处理比较 “简单随意”。通常评教后，针对某门课程的评教样本数据，根据教学班学生人数剔除评教分数最高和最低的前后百分多少的数据作为无效数据，依据上面方式剔除完样本中的所谓无效数据后，再对剩余数据进行统计分析。我们假设某门课程教学班参与评教的学生人数为ｎ，对应评教指标体系的指标项目为２０，该门课对应的指标记录项为Ｚ１，Ｚ２， … Ｚｍ，每位学生对应的评教汇总分值为：Ｐ１，Ｐ２ … Ｐｎ，，则每位学生的评分计算方法为：Ｐ１＝Ｚ１ * Ｘ１＋Ｚ２ * Ｘ２＋ … Ｚｎ * Ｘｍ，其中Ｘｍ指该学生第ｍ项指标对该课程评分值，ｍ∈（１，２０），按以上方式去除所谓的 “无效评教数据” （最高或最低分数）后，留下有效评教数据进行汇总Ｐ＝Ｐ１＋Ｐ２＋ … Ｐｙ，（ｙ≤ ｎ）其中ｙ为教学班去除无

效数据后的样本数量，最后求算术平均值，即为该教师这门课程的最后评教得分值：Ｔ＝Ｐ／ｙ按此步骤
计算出每位老师每门课的评教分值，以上统计方式为当前各个高校评教普遍采用的统计方式。

二、当前评教模型问题分析

根据对当前各个高校评教情况的深入了解和分析，发现目前高校中普遍存在以下问题。

（一）对被评教对象简单按课程性质进行分类，缺乏科学性和可比性。综观现在的学生评教模型，可见在指标体系的设置上，基本都是按照课程性质进行分类来组建学生评教的模板类型。我们通过调研咨询部分授课教师后发现，真正在教学时，即使课程性质相同，不同学科的课程授课难度、所需的教学要求及所需教学方法均会不同。譬如一个是授课难度较大且偏于理论的理工科类课程和一个基础性的文科类课程，使用同样的一套学生评教体系表让学生进行评教，其评教的差异性明显很大，因为课程难易决定了教师授课的要求不同，缺乏可比性。因此，在对被评对象选择评教体系表时，不能笼统的将相同课程性质的课程归为一个评教体系表，而必须要考虑其学科性质、专业性质等因素，这样才能保证学生评教指标体系构建的科学性，使学生评教结果更加科学和可信，从而得到被评教的教师的认可，吸引学生认真评教。

（二）评教指标分值的固定设置，导致各评价分值结果趋向集中，区分度失真。在现有的评教模型中，参评对象对被评对象进行评价时，往往是通过回答问题的形式选择指标中的某个值进行评价，而选定值所对应的分值即为该指标的评分。然而指标项对应可选的答案选项一般是在５个以内，也就是将评分的分值人为限定在几个可选分值之内，因此导致不同评价对象打出的分值区分度往往非常集中，表现出没有区分度。为此，我们对笔者单位的被评价对象近几年的结果数据进行分析发现，某二级学院的７０多位被评教教师在同一个学期，排第一的评教分值与排最末尾的评教分值之间的差距非常小，最低者获得分数在８５分以上，最高分在９１分左右，中间相差不到７分，每一位教师之间的分值差别不到１分。这种评教结果达不到学生评教的真正目的，无法获得被评对象的有效认可，不能有效地区分教师的授课水平，教学效果也达不到教学管理部门评价教师教学效果的目标。

（三）指标体系表指标项太多，导致学生不认真评教。
教学管理部门在构建评教指标体系表时太过理想化，希望通过学生评教指标观测到每一个被评价对象的各个方面，这样结果就是导致每一套评教体系模板的指标体系较多，导致学生在进行评教时不认真对待，应付、随意地完成学生评教，这样的学生评教模型结果可信度不足。

（四）在结果处理时未对原始评教数据进行有效度识别，导致评教结果可信度不高。部分高校的教学管理部门在收集评教原始数据时，未对参评对象—学生进行可信度分析识别，笼统简单地以教学班学生评教人数为基础，将整个教学班中分值最高或最低的几个百分点去除，以对原始评教进行有效数据筛选，这种简单的处理数据实际上非常不科学。因此，我们在构建新的评教模型时，必须在每套体系表中能够运用相关的手段识别到参评对象的原始评价数据是否有效。最后再对原始评价分值统计分析前，将评判出无效的原始的评价分值进行剔除，仅留下真正有效的学生评价分值进行统计，这样才能保证评教结果的可信度。

三、基于可信度及区分度的学生评教模型的构建

笔者对当前各高校学生评教模型存在的问题进行深入分析后，计划构建一套操作性强，能对原始评教数据进行有效识别，同时使评教结果具备一定区分度的评教模型。新评教模型必须坚持利益相关者：教师、学生、教学管理部门共同受益。能让学生能自愿认真地参与学生评教，获得更好的课堂教学质量；能让教师获得高度认可，通过学生评教发现自己的不足之处并积极改进教学效果；让教学管理部门能够通过学生评教模型真正有效地达到监测和及时反馈教学情况的目的，达到评价教师教学效果的目标，从而达到通过学生评教促进教学质量水平的提高。

（一）评价体系表由 “ 整体评价分 ” 及 “ 指标评价分 ” 部分组成，以增加评价结果的区分度及可靠信。笔者构建的评价模型中，评价体系表由 “整体评价” 及 “指标评价” 两部分组成， “整体评价”是指参评对象对该门课的教师从宏观整体上给予授课情况的一个整体效果分值，该部分在整个评价结构分值中占５０％， “指标评价分” 是参评对象针对评价对象针对每个指标项进行评价所获得的分值，该部分也占５０％。 “指标评教” 部分即以下介绍的由 “通用型指标” 及 “专业型指标” 组成。经过测试发现，评教模型通过设置 “整体评价” 加 “指标评价” 能够达到对评教结果进行有效区分，同时通过 “评价指标” 部分可以增加评教结果的可靠性。学生评价模型表２如下所示：

（二）构建动态、闭环可持续修正的分类学生评教指标库。学生评教指标库是指将不同类型的指标放置到一个表中，每个类型的评价指标数均有多条，以供后续组成评教体系表时动态抽取调用。动态指标库是指该指标库里面的评教指标可以不断修改完善，开放评教系统后，学生参加完学生评教后可以由学生自愿参与对学生评教指标的调查问卷，通过大量收集学生对学生评教指标的问卷回答，可以对指标库中指标的科学性、有效性进行分析，以便教学管理人员及时修正指标，不断提高评教指标的科学性、可靠性及可信度。（如图１）动态指标的指标类型分为通用型、专业型。专业型由四个方面来组成，如教学态度、教学方法、教学内容及教学效果，同时专业型指标可由不同学科性质分成几类，如可分为理工类、经管文类、艺术类等。动态指标库构建极其重要，影响到学生评教结果的真实性、有效性。

（三）动态抽取通用型指标及专业型指标构成不同类型学生评教指标体系表。在构建评价体系表时，既要考虑课程性质、又要考虑课程所属学科性质。在指标评价部分，笔者构建的评教模型由 “通用型指标” 和 “专业型指标” 分别从指标库中动态抽取相应类别指标组成。一套评价体系表组建的评价指标项由３ - ５条标项组成为宜，这样能确保参评对象认真评教，同时通过从指标库中动态按指标分类抽取指标组成评价体系表，这样比静态评价体系表能增加考核的观测点数量，即可从不同观测点测评到该教师的授课情况。（如图２）另外，每套体系表组成的指标体系不同，还可以减少参评人员的视觉疲劳，增加评教的有效性。通过设置 “通用型指标” 及 “专业型指标” 组成评价体系表能够增加学生评教结果的可信度，保证评教结果的真实度。表３为动态配置的理论课“理工类” 的评价指标体系表。

（四）分析评价对象 “ 整体评价 ” 与 “ 指标评价 ” 得分，分离每份评价分数的有效度。基于当前众多高校在设置的评教模型中没有对评教结果分数进行有效度分析，在笔者咨询调查过程中发现，众多高校均以每个教学班参评对象的上下５％左右将参评对象的最高分及最低分去除后进行结果统计，这种统计方法在剔除一些无效数据的同时，也会剔除一些有效数据。笔者在此模型中设计的有效度检验方法为：将参评对象提交的每一份的 “整体评价” 分值和其 “指标评价” 分值进行比较，通过计算两者偏差，将偏差度较大的数据视为无效数据，同时对同一学生提交的不同任课教师打分完全一致的数据进行甄别剔除，标记为无效数据。例如，如果某位参评对对象对某位教师授课情况进行整体评分，其整体评分如果获得是高分，那么相应的其对应的 “指标评价” 部分获得的分数应该是正相应，即两者数据必然相吻合，不会出现整体印象给教师分值很高而指标评价分值确很低，或者出现指标分值非常高而整体印象分值较低的状况，否则可以判断该同学提交的评价数据为无效数据。

（五）分析统计结果，其区分度明显扩大，有效性表现明显。笔者在按上面步骤方法对无效评分数据进行剔除后，以模型中 “整体评价分” 与指标分部分各占５０％进行了统计测试分析，发现该模型评价结果有效的拉开了教师评价结果的区分度，与之前模型相比，高分与低分的宽度明显拉开。当抽查部分教师的学生评教结果与督导评教结果时，其评价结果表现出一致性，说明该模型有效的将教师教学情况真实客观的反馈出来，达到了预期的目标。笔者利用两套评价模型对本校某学院１０８位教师进行了评价，在对 “无效数据” 剔除后进行了结果统计，如下图４所示。从评教结果图中，可以明显地看出，新模型能将学生认为教学效果好与教学效果差的教师进行有效分离，新评价模型的评价结果分布在９６. ７５至７３. １２之间，原模型中１０８位教师评价结果分布在９６. ８６至８４. ２４分之间，分差明显扩大。

四、总结

随着全社会对教育事业的高度重视及关注，高等学校及人才需求市场对人才培养质量的提出更高的要求，高校对教学质量的重视越来越高，学生评教作为当前各个高校主抓教学质量的重要利器，受到各个高校及参评对象的重视。因此，构建一套能够符合高校人才培养发展需求、让高校被参评对象信服、可信度及区分度好的评教模型非常重要。笔者通过构建及实施该评价模型收获了以下效果。

（一）提高学生参与评教活动的积极性，评教反馈的数据真实度高，也有助于及时收集课堂教学情况。在本模型中，拚弃了以往只能通过指标项评价的手段，增加了整体印象的评分，使学生参与评价的积极性提高，同时因为评价指标的动态抽取，让学生在进行指标打分时不会出现反感情绪，提高了学生真实评价的意愿。

（二）更真实地辨别出课堂教学效果非常好与教学效果差的教师。本模型利用整体印象分与指标分两项分值的对比判断，有效剔除了无效分值，同时通过整体印象分部分的直观打分，将被参评对象的分值扩大，经测试该模型可有效扩大不同测评对象之间的差距，经监测发现当同一个参评学生评价不同被评对象时，其利用整体印象分给出的分值差距有明显不同，即该学生自己心中的 “尺” 真实地测量被评价对象。这样，通过大量参与者利用自己心中的 “尺” 去测量被评对象后，即可有效识别哪些教师课堂教学效果好和哪些教师课堂教学效果差，对整体提高学校教学质量提供了有效的监测手段。

（三）评教模式能够动态修正指标，具备持续完善、更新的功能。在本评教模型中，评价指标库中的指标一直开放给参评对象（学生）进行在线调查，让参评对象自愿参与对该指标理解情况、认识情况的问卷调查，教学管理部门通过采集参评对象对指标本身的一个动态调查数据分析，可以统计分析出哪些评价指标本身存在缺陷，以此促使指标库中指标持续完善、更新的目的，进一步提高 “指标体系” 的有效性。

（四）提高了评价的可信度及真实度，为教学质量的提高起到良好的推动作用。在本评教模型中，利用该评教模型计算出的评价结果其区分度及有效度明显的提高，达到了通过学生评教对课堂教学情况实施监控及反馈的效果，达到了评价教师教学效果的目标，推动了教学质量的提高。本校试用此评教模型后，学生参与度提高，教师普通认可目前评价模型所出的结果。鉴于本评教模型的评价指标体系属于动态修正模型，笔者在今后的工作中会不断完善评价指标以提高有效度。同时笔者今后将继续对评价原始数据进行更加准确的分离，将无效数据真正进有效剔除，在对结果分析时还将继续通过模拟 “整体评价分” 与 “指标评价分” 的权重比值，让评教模型真正科学有效。

参考文献：

［１］陈玉琨，李如海 . 我国教育评价发展的世纪回顾与未来展望［Ｊ］华东师范大学学报（教育科学版），２０００（１）：１ -１２.

［２］商弘，章飞军 . 我国学生评教现状及存在问题研究［Ｊ］ . 甘肃科技，２００９（１）：１４９ -１５２.

［３］王力纲 . 高校学生评教问题分析与措施探究［Ｊ］ . 四川教育学院学报，２０１１（７）：１６ - ２０.

［４］许广鑫 . 我国普通高校学生评教指标体系问题的调查与研究［Ｄ］ . 中央民族大学，２００５.