|
测试的评分方法
作者:佚名 文章来源:中国英语教研网 点击数: 更新时间:6/16/2007
评分 (scoring),可以用分数,即用分数法 (the point method),也可以用级别,即用级别法 (the rating method)。评分看起来似乎挺简单,可是如何正确测量,如何排除偏见 (bias) 客观地把测量的结果表现出来,不是一件简单的事情。
讨论测试目标和任务的时候,我们曾经说过“客观地”测量。其实,操作的时候很难做到完全客观,因为测试自始至终都无法摆脱主观因素。前面论述的所有问题,都受到个人的意识、个人的判断的影响。评分这一步,也必然出现这种情况。无论是什么样的测试,无论规模大小,命题者总得准备答案 (the key) 或参考答案 (the key for reference),制订评分标准 (scoring criteria),确定评分方法 (scoring methods) 等。即使教师自己出题,自己评分,不将这些写成文字,心目中依然有这些东西。这些东西不管是什么人拟定的,是依据什么拟定的,是什么人审查的,都摆脱不了主观因素。
不过,我们在这里谈论评分方法,只谈方法本身的特点,只谈题项本身的特点,先不去研究太具体的问题。
前面已经谈过,传统的英语测试仅仅注重考语言知识,只注意语音、语法、词汇,这是很片面的。所以我们确定评分方法,拟写答案、评分标准的时候,要从多方面来考虑。特别要考虑语言的交际功能,考虑准确性 (correctness)、流利程度 (fluency) 和得体性 (appropriateness) 三个方面。
何谓准确、流利、得体,李筱菊是这样解释的:“准确性指语言符合语法(广义的语法,包括语音、语法、词汇)规则。这只关系到语言形式系统本身。流利,有些人以为就是讲话讲得快。其实这主要不是速度问题,而是效率问题。流利就是能用语言熟练地、不受拖延、不受阻滞地达到要达到的目的。”“得体性,指所用的语言是否适合于具体的语境和情景。”(Li 1997)她的解释对我们极有帮助。
下面,先谈谈以评分方法来划分的三种题项,然后再介绍常用的评分方法。
1 客观题
前面已经提到过客观题。客观题的特点有二:
l 题项本身提供若干种答案,只要求被试对答案的正确性作出选择或判断。
l 评分只出现两种情况:选择、判断符合正确答案的判为对,给满分;选择、判断与正确答案不符的判为错,不给分。没有“中间道路”可走。
英语测试常用的选择题 (selected-response items) ,例如要求两选一的两项选择题 (alternative-response items) ,从多个备选项目中作出选择的多项选择题,还有配伍题 (matching items),都是客观题。
1.1 客观题的优点
客观题有如下优点:
l 评分客观。由于答法是固定,只有正误之分,没有正误程度之分,不会出现给分宽、严不一致的问题,容易保证评分公正。
l 评分信度 (scoring reliability) 高。由于评分客观,使得评分信度高,这有利于提高测试的信度和效度。
l 容易扩大覆盖面,加强针对性。客观题比较容易增加题量,使每一题针对某方面,保证试卷覆盖比较多的语言点或内容点。
l 容易实现在计算机上做题。近年兴起的计算机化自适应测试,还有在因特网上进行的测试,大量使用客观题。这种测试能够迅速地根据被试的程度施测,迅速地计算出测试结果,而且能够十分有效地防止评卷过程中的舞弊行为。
l 节省人力、物力和时间。由于评分简便,评分工作效率高,宜于做到节约。
l 采集数据方便。如果人工采集数据,比采集主观题的数据容易。如果通过计算机和计算机的外设采集,那就更方便了。用光电字符阅读器 (optical character reader, OCR) 采集答题卡上的数据,处理这些数据,工作效率非常高。
1.2 客观题的局限性
英语测试中客观题用得很多,大规模的英语考试常以客观题为主。但是,这样做并不意味着客观题完美无缺。客观题有其局限性,常常不能满足我们的需要。例如:
l 只能覆盖十分有限的能力范围和较低的学习层次。不少客观题考查是语言知识,只是识别或回忆学过的内容。要全面地考查语言能力,要深入地考查交际能力及其他能力,用客观题就十分勉强。例如,有的多项选择题,命题者旨在考查理解,甚至应用、分析、综合、评价,但是所有的供选择的答法都是命题者拟好了的。被试的反应是以命题者的语言和思想为基础的,并不一定是自己的语言和思想。除外,从答题的情况看不到被试思维的过程。客观题答题常常只需要打钩、画圈、划线、涂黑字母,在整个测试过程中没有直接使用英语表达思想的机会。
l 容易助长胡乱猜测 (random guessing)的坏习惯。诚然,我们的教学鼓励学生通过猜测解决疑难问题,但我们所说的猜测决不是胡猜,而是根据可获取的信息进行的合理猜测 (reasonable guessing)。客观题胡猜即可能得分。不懂英文的人,只要知道如何涂画,四选一的多项选择题大约可得到四分之一的分数,三选一的大约可得到三分之一的分数。如果是两项选择题,运气好的人凭胡乱猜测能及格。这样答题,无形中助长了投机取巧的坏学风。
l 防舞弊的能力较差。学生比较容易看清邻座答题的情况,容易在考场内外传递答案。有的试卷,由于几乎不需要写文字,出现代考、考后改动试卷的情况,往往查证困难。
2 主观题
主观题的特点刚好与客观题相反:
l 答法是多种多样的。主观题只提出问题,没有供选择、判断的答案,要求被试自己拿出答案来。一批人做同一个题目,如果不是互相抄袭,答法不会完全相同。
l 根据答题正确、完整的程度来评分。教师可以从正确性、流利性、得体性三方面来考虑,根据评分标准酌情给分。
英语测试中,作文 (compositions)、简答题 (essay questions) 之类是主观题。口试是主观性测试,口试题一般说来也是主观题。
2.1 主观题的优点
与客观题相比,主观题有这样一些优点:
l 覆盖的学习层次广。主观题能够覆盖所有的学习层次。有人把主观题称作自由应答题 (free-response items),因为被试有比较宽阔的空间表达自己的思想,表现出在句子水平或语篇水平应用英语表达思想的能力。
l 考查的深度深。主观题命题,可以像客观题命题那样,让每个题承担总任务中的某一部分任务。除此之外,可以根据总任务用主观题进行综合性考查。主观题还特别适宜设置情景,了解交际能力和其他能力,了解应用英语的正确程度、流畅程度和得体的程度,并且可以在一定程度上了解被试的思维过程,有利于发现问题,找到产生问题的原因。
l 可以有效地遏制胡乱猜测。主观题答题需要“言之有物”,“言之有理”,胡猜者往往无机可乘。
l 防舞弊能力强。口试作弊很困难。笔试,偷看、抄袭得花较多的时间,容易被发现。阅卷时,容易查到雷同卷,容易发现考试之后被改动过的试卷。
l 能够提供生动、详细的反馈信息。客观题答题提供的,只是“懂”与“不懂”或者“会”与“不会”的信息。从主观题的答法中可以获取大量实例,供教学研究使用。
2.2 主观题的局限性
主观题虽然优点非常明显,缺点也是非常明显的。主观题的主要缺点是:
l 评分误差 (scoring errors) 大。与客观题相比,主观题免不了出现宽、严不一的现象。即使评分者就是命题者本人,或者笔试所有的试卷都由同一名教师来评阅,口试所有的考生都由同一名教师来考,也难以保证自始至终宽严一致。出现这种情况大致有三个原因:
a) 拟定答案、评分标准、评分方法时考虑不周。
b) 评分人对于答案、评分标准、评分方法有不同理解。两人或多人评分,时常出现这种情况。
c) 评分人的英语水平、教学经验、工作态度、疲劳程度、个人情感等影响评分。
l 人力、物力、时间消耗较多。笔试的主观题,阅卷工作量大。口试虽不阅卷,但实施起来不容易,可能消耗更多。
有人说主观题比客观题好,因为主观题才真正考英语。此话有理,但有点过了头。说有理,是因为在选择题泛滥成灾的今天,我们更应该想一想题项的导向性。主观题更能引导学生把注意力放在语言的实际应用方面,更有实用价值,更有利于学生在英语方面的素质的提高。说这种说法过了头,理由有二:一是忽视了客观题的“功劳”,二是说得太笼统。应该具体问题具体分析,主观题有出得好的,也有偏离测试目标的,拙劣的。出主观题,也得出高质量的。
主观题命题,要根据主观题的特点来进行。下列问题应该在设计测试和命题时认真考虑:
l 阅卷工作量。笔试用主观题,阅卷工作量势必会增加,也许会成倍增加。如果被试人数多,更应该仔细估算。选择题型、策划内容,不能忘记后面的工作。要努力简化评分方法,提高可操作性。
l 口试的考务。口试的考务比较复杂,我们将在后面讨论。
l 评分误差。有的考试,例如中考、高考这样的竞争性考试 (competitive tests),对记分的精确性要求很高,“斤斤计较”,多一分,少一分关系重大;有的考试只是了解情况,并不计较分数的微小的差异。主观题评分,无论做得怎么好,误差总比客观题大。评分的人多,更容易宽严不一。因此,为了减少评分误差,如果既有客观题又有主观题,命题时常这样安排:
a) 控制主观题分数所占的比例。在同一测试中,客观题的分数多,主观题的分数少,例如前者为80分,后者为20分。这样,即使主观题评分误差大一点,对总分的影响不至于太大。
b) 制订切实可行的评分标准。例如准备分级评分表 (rating scales) 和评分一览表 (checklists) (见第15章和第17章),对每一种情况有比较详细的描述,有客观依据。
l 人员培训。正式的考试,特别是规模比较大的考试,为了提高评分质量,要组织教师学习。命题人除了提供题目的答案外,需要提供评分标准、评分方法等文字材料,有时还要准备供培训使用的练习材料,安排培训工作。
3 半客观题
有一些题介乎于客观题和主观题之间。一方面,这些题像主观题。它们只提出问题,没有供选择、判断的答案,要求被试自己拿出答案来。另一方面,这些题又有点像客观题。正确的答法或表述虽不是唯一的,但在很小的范围之内,只要与所给的正确答案中的某一个相同,就认为答对了,给满分,否则就判为错误,不给分。由于没有酌情加分或者扣分的问题,不会出现评分宽严不一,评分信度高。这一类题称为半客观题 (semi-objective items)。后面我们要研究的填空题、填图题和涉及分类、组合、替换、转换的题项,其中很多是半客观题。
半客观题命题,应该注意这么几点:
l 给的答案,应该包括正确的答法和可接受的答法。
l 容许评分教师增补答案。命题人给的答法有可能不全面,也许有没有考虑到的。在评分过程中发现新的合理的答法,应该认可。
l 制订切实可行的评分方法和评分标准。对评分中常出现的问题要规定恰当的处理办法。例如,题项只要求给一种答法,倘若有人给两种或多种答法,其中有错误的,这时该怎么办。又如,填写的词语有拼写错误扣不扣分。不管如何规定,应该尽可能简化半客观题的评分,提高工作效率。最好“抓大头,一刀切”:要就给满分,要就不给分,不去计较小的错误,避免出现要酌情扣分的情况。
4 印象评分
印象评分 (impression marking),有人称为整体评分 (global scoring 或 holistic scoring),常用在作文或口试(如复述、看图说话、角色扮演、面谈)的评分。评分人从大处着手,凭自己总的印象给分。
如果评分教师很有经验,学生不多,而且不是很重要的考试,可以完全按照教师的主观印象评分。如果情况不是这样,为了保证质量,要对评分加以制约。通常需要拟写评分标准,制订分级表,描述每个等级的特点,给分数的尺度。除此之外,作文应该有样卷 (range finders),供阅卷教师学习评分标准时参考。口试可以选上、中、下三种程度的典型的被试,录音或录象,供口试教师学习评分标准时参考。
印象评分,简便、效率高,但是对评分人要求高。评分教师最好是业务水平高、有经验、工作认真的人。如果多人评分,应该组织学习,试评,然后再开始工作。
采用印象评分,评分标准掌握不好会出现较大的评分误差。
5 分解评分
分解评分 (analytic marking),顾名思义,就是把测试分解成若干部分,每个部分有一定的分数,总分是各部分的分数之和。这种方法用得很普遍。
实际上,很多英语考试既有分解评分又有印象评分:部分大题采用分解评分,部分大题采用印象评分,整个考试用分解评分。
研究发现,如果评分者训练有素,印象评分和分解评分的分数的相关程度是很高的。
6 有惩罚评分
有惩罚评分 (scoring with penalty) 主要是用来“治”两种人:第一种是做客观题胡猜的人,第二种是不按照规定做主观题的人。胡猜,答错了就要倒扣分;不守“规矩”,也要倒扣分。如果采用有惩罚评分,应该“广而告之”,在学生开始做题之前口头告诉学生,或者在题项的指导语中写明。
这样评分,其积极意义是显而易见的,可是也有一定的消极作用。例如,由于要倒扣分,会使那些小心谨慎的学生连合理的猜测都不敢了,情愿把一些题留着不做。本来,我们应该鼓励合理猜测,该鼓励学生把题做完。
答错给零分,不倒扣分的评分方法,称为无惩罚评分 (scoring without penalty)。绝大部分英语考试采用这一种方法。
7 频率累计评分
频率累计评分 (frequency-count marking) 是一种传统的评分方法。所谓频率,指的是出现的次数。评分方法是累计某方面的数量,根据数量评分。例如听写,写对多少词给多少分,复述,按讲到的内容要点给分。
有一种评分方法,称为错误累计评分 (error-count marking),属于这一类。评分前规定每种错误应扣除的分数。评分时统计有多少错误,是什么错误,然后从总分中扣除该扣除的分数,剩下的就是得分。这种方法可用在句子水平的题项,也可用在语篇水平的题项。
有些专家不赞成用错误累计评分,他们提出这样的批评意见:
l 不能反映正面教育为主的教育思想。考查学习成果应该首先看积极的方面,不应该花太多的力量盯着错误。
l 容易见树木不见森林,看表面不看内在。也许学生的表述基本能达意,在表达方式上还有不少“闪光点”,反映出较好的交际能力。不能因为词汇、句子结构、语音有些错误就否定主要的东西。
l 有可能对于写得多,说得多的人不公平。要求笔头或口头表述的题,写得多、说得多的人,很可能英语比较好,表达能力强。可是“言多必失”,多了出错的机会也多,被扣的分数也多。
l 操作困难。统计笔试的试卷上的语言错误很费时间,要精确统计口试中的错误几乎不可能。而且,什么是错误,什么是大错,什么是小错,时常界线不清,难以准确判断。
8 双人评分和多人评分
为了减少印象评分的评分误差,可以采用双人评分 (double marking) 或者多人评分(multiple marking),就是两人或者两人以上评阅笔试的同一道主观题,或者口试为同一名学生评分,得分取评分人给的分数的平均分。为了避免相互影响,教师各评各的分,不讨论,不看别人给的分数。如果教师有较高的水平,能够掌握评分标准,而且搭配适当,这样是可以明显提高评分质量的。否则,就反而会把事情弄糟,可能是”Too many cooks spoil the broth.”
这种方法的突出的缺点是加大了工作量。虽然口试较多采用双人评分或多人评分,笔试目前仍以单人评分居多。
9 自我评估
评分不一定非得教师。被试的自我评估 (self-assessment) 是很有意义的。有些测试,例如进步测试、诊断性测试,可以让学生自己批改试卷,或者听自己的录音,看自己的录象,然后评评自己该得多少分,为自己写一段评语。如果学生理解这样做的目的,会评得很认真,也许比老师还严格。他们会立刻为自己的不足感到遗憾,能够较快吸取教训。
可以设计这样的测试:口头作文,让每个学生对着摄像机讲1-2分钟。然后让学生看录象,填写一张这样的评分表:
自我评分表
SELF-ASSESSMENT SHEET
(请你从语音、语法、词汇,流畅程度,仪态五个方面为自己评分。圈出你认为每个方面应该得的分数,然后算出总分。)
学生自我评估能够增加学习的兴趣,调动学习的积极性,也能使教师更了解自己的学生。
10 百分位分数
我们在第2章谈到,常模参照性测试的分数能够反映被试在整个群体中的地位。大规模测试求常模、调整分数的程序比较复杂,多数的英语教师没有必要研究得那么深。有没有简便的办法用分数反映被试的地位呢?有的。这里介绍一种用笔、用计算器就可以做好的方法,适合小规模测试使用:用百分位分数 (percentile scores),通过100个百分位等级 (percentile ranks) 来示某个分数在全部分数中所处的位置。
求百分位分数,要编制百分位表 (the percentile table),把有关的数据填进去,然后再进行计算。表分这么几栏:
l 原始分。将测试的原始分按照高分在上低分在下的顺序排列起来,每一个分数占一行,填在栏内。例3-2反映的是一次年级统考的成绩,共有140人参加,有15个不同的分数,所以栏内填15个分数。48分为最高分,在最上面;28分最低,在最下面。排序是非常重要的一步。如果忘记了按照规定的顺序排列,那么后面就全乱了。
l 次数 (frequency)。这里指的是得到这个分数的次数,或者说有多少人得的是这个分数。将数值填在次数栏内相应的地方。例3-2中,得48分的仅1人,得47分的为2 人,得40分的为19人,所以把1、2和19分别填在48、47和40后面。
l 累积次数 (cumulative frequency)。用全部人数减去上面的分数的次数。例如,47分的上面为1次,所以140 - 1 = 139;40分上面有26次 (1 + 2 + 4 + 6 + 13 = 26),所以140 - 26 = 114。48分上面没有再高的分数了,次数为0,所以140 - 0 = 140。
l 百分位分数。计算百分位分数:用总人数去除总人数和累积次数的差,然后乘以100。
被试的总人数 - 累积次数
百分位分数 = × 100
被试的总人数
l 将得数四舍五入。可以只取整数,也可以保留到小数点后面1位或2位。
原始分为48分的那一位,百分位分数为100,其含义是名列第一。也许有的读者会说,48分竟然变成了100分,实在不可思议。其实这是非常合理的。百分位分数体现的,并不是题答对了多少,而是与别人相比是如何的好,或者是如何的差。既然此人原始分最高,为什么不该给100分?除外,原始分48分也不一定就是很糟的分数。也许满分为50分,此人基本上都答对了,折成百分制是96分。
也许有的读者会问,原始分为28分的那一位太亏了,好歹费了一番心思,做对了一些题,可是百分位分数竞是0分。我们要说,给0分是正确的。要知道,即使此人再多做对一些题,原始分再高一些,只要下面没有“垫底”的人,“水涨船高”,改变不了得0分的结果。 |