|
从信度与效度的相互关系看语言测试的取向
作者:汪先锋 … 文章来源:http://breezering.myanyp.cn/22/articles/050206084455421.aspx?z=160737&m=289076 点击数: 更新时间:11/25/2007
摘要:信度与效度是语言测试的永恒主题,信度与效度孰重孰轻,也是现代语言测试学家一直争论不休的话题。本文试从信度与效度相互关系的角度出发,结合语言测试对外语教学的反拨作用,指出效度应重于信度。
关键词:测试;信度;效度;相互关系;取向
语言测试学,又称语言测试理论,作为应用语言学的一个分支,现已发展成一个相对独立的学科。语言测试主要有三个方面的用途:第一,用于语言教学;第二,用于语言研究和教学研究;第三,语言测试可以用来选拔人才。人才的要素是文化素质,文化素质主要指思想深度和获得知识的技能,这些都要靠语言来表达或语言这一媒介来进行。因此每年有研究生入学考试,外语职称考试等语言测试项目。不过我们所要讨论的不是广义的测试,而是与语言教学紧密相关的语言测试。语言测试作为教学的一个环节,有它的必要性。然而现在社会上的种种说法诸如”考试是指挥棒”,”考考考,老师的法宝”是不足取的。因为不科学的测试不仅不能起指挥棒的作用,有时反而会误导教学,将学生和教师引向歧途。因此我们主张的是科学的,符合教育原理的测试,这样的测试会对教学产生积极的反拨作用。一套设计比较科学的测试应该具有哪些特征呢?一般认为有四点,即效度,信度,实用性,和良好的反拨作用。信度与效度原是计量学中的两个重要概念,30年代被引入语言测试领域,60年代以Lado等人为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。可以说语言测试理论和实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试的永恒主题。
一、信度与效度的概念语言测试的信度是指测试结果的可靠程度,即一套题的测试结果是不是比较稳定,如果一套题今天测试与几天后测试结果比较一致的话,就说明这套试题的信度较高。语言测试信度的高低主要说明的是测试结果在多大程度上反映了受试者真实的语言行为。影响信度的因素很多,它们存在于语言测试的每个环节中。就试卷本身来说主要是样本的大小和区分度等。取样大,样本具有广泛性,测试的信度就高,反之信度就低。另外试题太难或太易,考试分数集中于某一点或某一区域测试也失去信度。在测试的组织、实施这个环节中,一方面考试的环境和条件要对考试有利。考场的温度、湿度、光线和噪音等以及在听力考试时使用的放音设备的质量乃至于监考人员的性格和态度都能影响考生对试题的做答并进一步影响到考试的信度。另一方面,考试的环境和条件对所有的受试者是否一致也影响到考试的信度。为保证信度,这些环境和条件对全部的受试者都应当公平一致。在测试评分的环节上,评分标准是否一致对信度影响很大。当然这主要指主观题的评分而言,客观题的评分信度系数较高,比如多项选择题的评分信度系数为“1”。因此,为保证信度,同一个测试的评分标准必须保持一致或稳定。此外评分者之间以及同一个评分者前后在对评分标准的把握上应当保持一致。效度是一种相关性,表明测试与测试目标的关联程度。一般说来,如果一套测试题测量了试题设计者想要测量的或考查的内容或能力,那么这就是一次效度高的测试。根据结构主义测试学家的传统解释,语言测试的效度是指测试是否考了它所要考的。一般认为效度有五种:表面效度、结构效度、内容效度、共时效度和预示效度。结构效度也称观念效度或理论基础效度,是指测试是否以有效的语言观和语言学习观为理论根据。即是说通过一种测试,你想证明一种语言学习理论,或学习过程中人们的心理过程,学习过程。观念效度是语言测试的主要效度,是一切其它效度的基础。与观念效度密切相关的是内容效度。内容效度是指测试的内容中两种相互关联的性质,即测试内容与测试之间的相关性;也就是说测试中所涉及到的内容要有代表性,要准确,全面,充分体现要测试的内容。测试内容与测试的目的以及与学习目的之间的相关性。这里的两种相关性提出了一个双重问题:测试目的应具有的一致性与代表性是否构成它要测试的内容的有效抽样。观念效度和内容效度属语言测试的内在效度。共时效度和预示效度属外在效度,它们指测试结果是否或在多大程度上与一些外在标准相关,故又称标准参照效度。这些外在标准主要是指在同期或未来某个时间举行的被认为具有效度的另一次相同性质的考试以及教师的评价等。表面效度是指测试从外观看上去被人接受的程度,即看上去是否考了它应该考的。因而具有表面效度的测试则容易引起应试者的兴趣。语言测试涉及两方面的内容:首先作为一种测量工具,它必须保证测量结果的可靠性,也就是信度要求。显而易见,用一把本身具有很大伸缩性的尺子来测量物体的长度,其结果必然不可信;同时,语言测试以语言能力为测量目标,它的内容和形式与语言能力应有最大的相关性,亦即效度要求。由于不同的语言观及语言学习观对语言和语言能力的认识不同,不同的测试学派对效度的理解出现了差异。因此,与信度相比,效度是语言测试较为复杂的属性。以结构主义语言学为理论基础的结构主义语言测试无疑具有一套最完备的理论体系,然而在交际测试学家看来,结构主义语言学有关语言本质及语言学习过程的理论本身是错误的,因此结构主义语言测试没有结构效度,也就从整体上缺乏效度。从一套特定的有关语言及语言学习的假设出发必然得出以其为理论根据的测试具有高效度的结论,然而如果这套假设本身是错误的,它的效度就令人怀疑了(Morrow,1979)。至于内容效度,结构主义语言测试学家认为语言测试只要考了语言要素和语言技能就有了内容效度(Lado,1961);而交际测试学家则认为语言测试的内容应由那些能反映受试者语言能力的语言表现或语言行为构成。甚至有人说语言测试只有考那些真实交际场景中使用的语言才算有内容效度(Bell,1985)。结构主义测试学家推崇建立在数据之上的外在效度;交际测试学家却怀疑外在效度。如果被当做标准尺度的那个测试本身的效度令人怀疑就不能因为另一个测试与它高度相关而得出其具有标准参照效度的结论(Weir,1990)。另外因为结构主义语言测试确实看上去与实际的语言能力相关程度较低,结构主义测试学家忽视表面效度的作用;交际测试学家则强调表面效度的作用。不同测试流派在效度问题上的争论反映了人们对语言本质及语言学习过程认识上的差异。不难看出交际测试赋予了效度新的含义,即一个语言测试效度的高低不仅在于它是否考了它要考的,还在于它考的是什么。测试的内容和形式越接近实际使用中的语言就越有效度。
二、效度与信度的相互关系
语言测试以语言能力为测量目标,而语言能力是抽象的,是通过具体的语言行为体现出来的,难以直接测量。另外任何测试都不必要,更不可能测量所有的语言行为,因此语言测试的目的是通过对受试者语言行为样本的测量结果来推测受试者的语言能力。一个语言测试包含两个基本的过程:一是确定能有效说明受试者语言能力的语言行为并在此范围内选取有效的样本;二是保证测试结果真实准确反映受试者的语言行为。语言测试的效度反映所测试的语言行
为与语言能力的关系。语言测试的信度说明考试结果与语言行为的关系。没有信度意味着测试结果不可信,不是受试者语言行为的真实反映,我们就难以藉此测量任何东西。没有效度只有信度的测试也毫无意义,因为它准确地测量了与语言能力不太相关或毫不相关的东西。在此情况下,我们同样无法从考试结果中推测受试者真正的语言能力。要实现一个语言测试的目的,信度与效度缺一不可,这是二者关系的统一性一面。另一方面矛盾和对立构成了二者关系的主要特征。效度要求使语言测试注重语言的整体性,艺术性,测试题目的多样性,测试的内容和形式尽量接近语言运用的实际。信度要求则使语言测试强调语言的科学性,将语言进行分割处理,注重测试题目的同质性,使语言测试的内容与形式脱离语言运用的实际。因此,任何测试,任何测试题型都难以兼有极高的信度和极高的效度。以离散型测试为主要特征的结构主义语言测试能保证高信度;而强调以真实的语言为测试内容的交际测试能保证高效度。
三、现代语言测试的取向
1.传统意义上的语言测试的取向:信度重于效度
信度和效度的统一与对立的性质决定了同时具有高信度和高效度的语言测试是不存在的。任何语言测试都必须在二者之间进行平衡和折中。然而这种平衡和折中在现代语言测试中并没有得到很好的体现。现代语言测试的一个重要偏向是过于注重信度忽视效度。这种偏向的出现主要有以下原因:首先,任何一门学科的产生和发展既反映了社会的要求同时也受相关学科以及社会技术进步的影响和制约。七十年代以来,语言学,应用语言学,心理语言学,社会语言学,语篇分析及第二语言习得等相关学科的飞速发展,为语言测试馈入了丰富的思想内容。在诸多有关语言和语言学习的理论中存在相互矛盾和对立之处,这又从另一方面阻碍了语言测试理论的发展和进步。至于语言测试理论本身的情况更是如此。测试的研究者们往往对效度的论证得出不同甚至相反的结论。比如,综合型测试信度和效度高,因而优于离散型测试,但也有人经过研究认为在测量结果方面二者没有什么差别。再比如,有人质疑用多项选择题(MCQs)测量阅读理解能力的有效性,但也有人认为MCQs能有效地考察阅读理解能力。以结构主义语言学为理论基础的MCQs具有高信度低效度的观点已被普遍接受,然而也有人宣称MCQs即有高信度也有高效度。第二,统计学,测量学以及计算机技术等现代科技手段的应用使语言测试向标准化科学化方向发展。试题库是语言测试标准化科学化的必然产物。高信度的语言测试适应标准化科学化的要求,有利于试题库的建立和生存。反过来,标准化科学化的要求,试题库的建立和存在又进一步强化了语言测试的信度要求。第三,在语言测试领域,许多专业的设计者为了使自己的测试更具有科学性,更符合一些质量标准而积极地追求信度,因为信度被认为是一种最常规的、传统的、并且容易验证和控制的质量标准。对信度的追求自然以牺牲效度这另一个难以琢磨和控制但却更有价值的属性———效度为代价。现代语言测试重信度轻效度的倾向的主要表现是测试内容和形式脱离语言运用实际,重知识轻能力,注重领会式技能的考查,忽视复用式技能的考察。这种偏向在测试题型上的表现是测试以客观题为主,从而导致多项选择题的泛滥使用以致于它在相当长的一个时期内似乎成为了语言测试的唯一方(Hugh es,1989)。现代语言测试的这种偏向在应试教学的作用下给外语教学带来了严重的负面影响,阻碍了外语教学培养交际能力这一目标的实现。外语学习者往往经过多年的学习尽管可能以较好的成绩通过考试但其语言实用能力却很低下。
2.现代语言测试的取向:效度应重于信度
在信度与效度难以兼得的情况下,语言测试应首先考虑效度要求,在此基础上尽可能地追求信度。首先,从理论上讲效度是比信度更重要的一个属性,在语言测试中占有中心地位。信度和效度是两个相互排斥的属性,如果必须做出选择的话,效度毕竟更为重要,而信度并不是第一位的。有时为了提高效度而牺牲一定程度的信度是必要的,然而如果为提高信度而牺牲效度,我们的测试就变成了准确测量我们测量目标以外东西的工具。其次,从信度与效度的关系来看,语言测试如果首先保证了高信度则必然效度很低或没有效度;反之,如果首先考虑效度,信度虽然会受到一定的损害但绝不是不可获得。我们能够使一个高效度的测试增加一些信度,但我们难以使一个高信度的测试更加有效度。最重要的是,语言测试以效度为主导有助于改善其对外语教学的影响。语言测试给外语教学带来的影响即人们常说的反拨效应,是衡量语言测试的重要标准之一,因此也被许多测试学家称为反拨效度。现代语言测试对效度的忽视在很大程度上也就是对反拨效应的忽视,使语言测试脱离了外语教学。语言测试以效度为主导无疑将给外语教学带来积极的影响,推动外语教学向培养学生实用语言能力的方向发展。在重要的经常举行的大规模语言测试中测试内容和形式的微小变化都会给外语教学带来显著影响。在大学英语考试(CET)阅读理解部分加入翻译题给大学英语教学带来的有利影响是显而易见的。要提高语言测试的效度必须设计出能有效反映受试者语言能力的题型以及努力使主观题的评分尽量客观化。在这方面近年来我国的学者们做了一些有益的探索和研究。如有人主张引入交际测试;有人论证了用听写代替多项选择题来测试听力理解的可行性。当然要提高语言测试尤其是大规模的语言测试的效度无论采用何种可行的测试题型与多项选择题相比都会加重阅卷方面的负担。那么应当如何看待这种负担呢?Hughes(1989)的一段话也许有助于我们的思考。在说采用能产生良好反拨效应的测试方法使我们负担不起之前我们必须问自己这样一个问题:语言测试不具有良好反拨效应的代价是什么?那种产生消极影响的测试使教学双方在与真正的教学目标并不相关的活动中浪费了大量的时间和精力,如果比较一下我们为此付出的代价加之因缺乏足够具有外语能力的人才给国家经济带来的潜在损失,我们就会得出这样的结论:我们真正负担不起的是不使用具有良好反拨效应的测试。
四、结束语
信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。从信度与效度等测试标准出发来评价或取舍一种测试模式或测试题型是必要的但却远远不够,更重要的是要考虑它对教学的影响,看它是否有利于教学目标的实现;是否符合学习过程的,对学生是否有一种有利的引导作用和督促作用。对此,著名学者李筱菊的一句话有过精彩论述:一个语言测试的真正价值不在于它能用多少数据去说明什么而在于它能否给人们带来好的快乐的结果,有助于使人变得更完美。因此,在任何情况下,不能让考试内容决定教学大纲,不能把考试技术训练变成训练语言技能的主要方法,不能让试题汇编代替课本,不能让测试代替正常教学。这是多年来语言测试专家和语言工作者一直呼吁的。 |