现代教学论-学生的学业评价
首页 上一章 目录 下一章 书架
    一、学生评价与学业评价

    在教育评价领域,有关学生的评价研究可以说是最为丰富的。目前,学生评价在理论和方法技术上是比较成熟、完善的,主要有智力测验、学习潜能测验、学科学习成就测验、中小学体育锻炼标准达标测验、学习适应性测验(如AAT测验)、个性测验(如卡特尔16种个性因素测验)、心理健康评价等。这些评价在我国都有不同程度的发展。在当前我国教育由“应试教育”向“素质教育”转轨的必然趋势下,学生综合素质评价越来越受到重视。很多有识之士把学生综合素质评价看成是推动素质教育的重要手段,并积极展开了相关研究。但是,从目前的研究文献和实践来看,学生综合素质评价的理论和方法技术还很不成熟。

    学业成就是衡量学生学习和发展水平的重要方面,而且学业成就的测量与评价研究起步较早,也较为成熟。下面主要以学业评价为主,介绍学生评价研究的一些成果及应注意的一些问题。

    关于学业成就尚无统一的界定。它在使用中多指在规定的教育内容范围内,学生通过教学或自学,在认知方面所获得的成果。在我国,一般是根据布鲁姆等人提出的教育目标分类理论,从知识、领会、应用、分析、综合和评价等认知目标层次,来测量和评价学生的认知发展变化。因而,学业评价是指以国家的教育教学目标为依据,运用恰当的、有效的工具和途径,系统地收集学生在各门学科教学和自学的影响下认知行为上的变化信息和证据,并对学生的知识和能力水平进行价值判断的过程。

    学业评价既可以在教学过程中进行,用作诊断性评价和形成性评价,来诊断和发现学生学习和教师教学中的问题,为教和学的改进和完善提供有用的反馈信息,也可以设计为总结性评价,对学生的阶段性学习成就区分优劣、鉴定等级。

    二、有效测验的必要条件

    学业评价和教育测量密不可分。测量是根据一定的法则为事物指派数字。教育测量的任务主要是,选择和编制测量工具,收集学业成就的证据,获取数据资料。测量是评价的基础。单纯的测量结果,如某学生的化学考试成绩的原始分数55分,并不说明什么价值意义。在测量之后,依据测量结果和其他准则进行一定的价值判断,是评价的主要目的。例如,可以用这个分数与其他学生的成绩比较,判断他的化学成绩是好是差,属于A、B、C、D的哪一等级;或者和一定的标准(某一单元教学目标)相比,说明他是否达到了目标、相差多少;或者与以往成绩相比,看是进步了还是退步了等。

    测验是测量的重要工具。有效的测验,是对学生的学业成就做出科学、公正、可靠的评价的前提条件。一个有效的测验,需要符合下述几个必要条件。

    1.效度。效度是指一个测验,测量其对象达到了多么好的程度。一个有效的测验,应当能最大限度地测量出对象的效度。测验效度较低,评价所指的对象就会发生错位,评非所评。在学生评价和学业评价,评价者应当注意所做的测量和测验是否具有较高的效度。

    2.信度。信度是指一个测验测量其所要测的东西前后一致的程度。信度反映测验是否准确可靠的问题。测验信度不高,表明测验结果不稳定、不准确,也不可靠。根据这样的测验结果所做的价值判断,也就不会可靠。

    3.代表性。几乎所有的心理与教育测量都是以取样的原理为根据的。实际上,要测量一名学生对某一学科里的全部概念和原理原则的掌握是不可能的。测验的内容往往是其中的一个内容样本,学生对测验的反应就构成了他的学习成就的一个行为样本。要想根据样本对其所属总体的情况做出可靠的推断和评价,需要测验的内容样本及相应的行为样本具有较高的代表性,即能最大可能地代表或反映出学业成就的总体水平。

    4.区分度和鉴别力。一个有效的测验,特别是用于选拔和鉴定分等的测验,还应具有较高的区分度,即能最大限度地区分或鉴别出学生个体在所测量的品质或属性上的水平差异。一般来说,目的主要是为了评价学生是否掌握了规定的知识、技能的测验,对区分度的要求不高。

    5.具有一定的可行性。除上述的条件之外,编制和设计测验还必须考虑各种实际问题,看测验是否可行,力求所作测验具有较高的可行性。测验缺乏可行性,或可行性不高,在施测或评分时,会发生许多无法控制的问题,影响测验结果的可靠性,进而影响到评价结论的可靠性。

    三、几种常用的测验类型

    (一)常模参照测验和标准参照测验

    常模参照测验是以学生团体测验的平均成绩作为参照标准,说明某一学生在团体中的相对位置,将学生分类排队。它着重于个人与个人之间的比较,主要用于选拔或编组、编班。常模参照测验要求试题难度适中,尽量对所有学生都有较强的鉴别力和区分度。

    标准参照测验是以体现教育教学目标的标准作业为准,看学生是否达到标准以及达到标准的程度,主要不是用于比较个人之间的差异。它所关心的是试题是否从数量上、质量上、结构上同要测定的内容和范围一致,即能否正确反映教学目标的要求,而不是这些试题的难易和区分度。利用标准参照测验可以具体地了解学生对某单元的知识、技能的学习和掌握情况,看出哪些学得好,哪些没学好需要补救。我国的高中会考和教师自编测验就属于标准参照测验。

    (二)标准化成绩测验和教师自编测验

    标准化成绩测验一般是由学科专家和测验编制专家或专门的编制机构,按照一定的程序共同编制的,具有较高的信度和效度的测验。标准化成绩测验的突出优点是具有客观性和可比性,所以,它是评价学生学业成就的重要手段之一,在国外使用比较普遍。在我国,标准化成绩测验主要用于高考。目前市场上供应的各种“标准化测验”试题并非是严格意义上的标准化测验。

    教师自编测验是教师根据自己在教学各个阶段的需要,自行设计与编制的测验。由于制作过程较为简单,测验的信度、效度等事先没有经过严密的论证,其应用范围仅能限于本班、本校。但它常可以迅速达到很多具体的评价目的。如果教师希望利用恰当评价对学生做好个别指导的话,他就必须善于自己编制各种不同的测验和试题,借此去发现和肯定学生的成就和优点,找出不足和缺点。

    (三)客观测验和论文式测验

    测验的试题可以客观地记分,即不同的评分者虽然各自评分,但评定的结果却是一致的,这样的测验称客观测验。客观测验强调评分标准和试题答案的确定性和唯一性,这就使编制较为困难而费时,而且对测量诸如发散思维、创造力、没有唯一答案的现实问题的分析能力、写作能力等方面的水平,显得无能为力。但是它具有多种优点,如排除了评分的主观性与不确定性,能提高阅卷的效率和准确性;测验试题的容量较大,可以保证试题样本有较高的代表性,可以提高测验的效度;测验项目和要求填写的答案内容简短,测验的效率较高等。客观测验主要有是非题、匹配题、排列题等再认式试题,有时也会用答案非常简单的填空、简答、改错等回忆式试题。

    论文式测验是以少数试题让受测者或申述说明,或分析比较,或论证批判,或评价鉴赏,等等,根据自己的想法和认识自由作答的一种测验。它是一种衡量较高级的思维过程和能力的测验。论文式测验的试题容易编写,最适合于组织能力、分析综合能力、文字表达能力、发散思维、创造能力等方面学习成就的测量。但是,论文式测验的题目少,取样缺乏代表性,而且评分困难,既费时又难以排除无关因素,尤其是评分者的主观因素的影响,从而使测验的效率、可靠性和有效性降低。

    四、学业评价的主要类型

    根据评价依据的标准与评价结果的解释方式的区别,评价可分为相对评价、绝对评价和个人内差异评价。

    (一)相对评价

    相对评价是通过个体的成绩与同一团体的平均成绩或常模相互比较,从而确定其成绩的适当等级的表示方法。相对评价也称作常模参照评价。这种评价重视区分个体在团体中的相对位置和名次。相对评价主要满足教育管理者对学生进行鉴定分等和选拔的需要。但它对于个人的努力状况及进步程度重视不够,尤其是对后进者的努力缺乏适当的评价。相对评价的结果经常用偏差值法表示。目前,我国许多省(市)开始用标准分数来报告考生的成绩。

    (二)绝对评价

    相对评价的参照标准是在对测量结果作出统计处理之后确定的。而绝对评价的参照标准则是根据教学目标的要求,并在测量之前就确定了的。绝对评价的主要任务是对被评价者是否达到了目标要求和达标的程度作出判断。因此,它也可以称为标准参照评价。

    绝对评价的思想容易理解,但是,达标标准的确定却是绝对评价的最大难题。目前,我国中小学教育虽然有全国统一的教学大纲和教学计划,但是尚未建立统一、权威、相对稳定的各科的具体学习水平标准以及可靠有效的考试评价制度。在学校中,教师广为使用的测验和评价,主要属于标准参照测验和绝对评价。

    绝对评价一般用通过或不通过(合格或不合格)来表示,但也有用三级或五级标准来表示的。在测验难度符合教学目标要求的情形下,评定等级所依据的分数可以是原始分。一般地,三级评定采取的标准是:答对率在85%以上,为掌握较好;70%至85%为掌握一般;69%以下为掌握较差。五级评定的标准是,95%~100%为优;85%~94%为良;75%~84%为中;65%~74%为及格;65%以下为差。

    (三)个人内差异评价

    和绝对评价、相对评价不同,个人内差异评价是依据个人的标准来评价的。它是指对学生个体的同一学科内的不同方面,或不同学科间的成绩与能力差异进行的横向比较和评价,以及对个体两个或多个时刻内的成就表现进行的前后纵向评价。

    通过横向评价,可以了解一个学生的各科学业成就、学习潜能、学习兴趣、学习态度或有关的性格等方面的整体水平和发展平衡情况,以及表现较为突出的方面和比较薄弱的、需要加强学习和改善的方面。而通过纵向比较,可以评价学生在不同时期的学习是进步还是退步,进步或退步的程度如何。因而,个人差异评价,可为学校和教师的个别指导提供较好的服务。

    个人内差异评价依据的数据信息,要求具有可比性。Z分数、T分数等标准分数都具有较强的可比性。

    上述三种评价并非截然对立、相互排斥的,在实际应用中,可以互相融合使用。例如,教师和学生个体可以在相对评价或绝对评价的基础上,进一步展开个人内差异评价。

聚合中文网 阅读好时光 www.juhezwn.com

小提示:漏章、缺章、错字过多试试导航栏右上角的源
首页 上一章 目录 下一章 书架