三、写作测评的基本方法
写作测评方法的探索,一直以来都吸引着人们的广泛关注。因而,写作测评的种种方法也随着实践不断丰富,如果不加以概括和分类,要列出十几种乃至几十种也不困难。因此,无论从实用还是从研究出发,有必要对作文测评方法作一类型分析。而这种“分类”,又是因各家的实践与研究角度而有所不同。
(一)黄元龄的写作测评法分类
黄元龄(中国台湾)在《心理及教育测验的理论与方法》一书中,认为写作测评方法有四类。
(1)写作基本能力测验法。把写作能力分成几种基本能力,如改正错别字,删除累赘字词,造句,标点运用,语句重组等,分别编成客观测验,加以测量,然后组合成测验的成绩,以评定学生的写作能力。
(2)多段短文评定法。出几个题目,增加取样范围,要学生分别作几段短文,每段短文,制订有一定的评分标准,然后以学生所得的各段短文分数的总和,作为他的写作成绩。
(3)作文量表法。出一个作文题,要学生写一篇文章,再拿他的文章和作文量表上的样篇比较,看这篇文章和量表上哪一篇样卷的品质较为类似,即以该篇样卷的分数或等第,作为所测量学生的作文成绩。这个类型亦即本书常称的“参照作文量表”。
(4)作文评定量表。先分析作文品质所包含的几种特性,列成几个评定的项目,制订成作文评定量表,再将学生的作文,按评定量表上所列的项目标准加以评定,最后再适当斟酌,综合评定全篇的成绩。
(二)尼特柯写作测评分类美国教育测量专家尼特柯(A.J.Nitko)概括了不同写作测评工具的异同,也反映了写作测评效度与评分者信度的矛盾。
(三)单题长文测评
单题长文测评,是指在规定的时间里要求写一篇完整的作文,依据这篇作文评定学生的写作水平。这是一种传统的写作测评形式,由于它命题方便,又容易保证有效性,目前还被广泛采用。这种测试有两种题型:
1.命题作文。出一个写作题目,学生独立构思,按题目写出内容和结构比较完整的作文。
2.条件作文。提供短文、图画等资料,学生据此展开思路,组织一篇作文。条件作文有看图作文、续写、扩写等。
单题长文测评方式存在一些缺陷:
第一,存在猜题、押题、套作现象。
第二,题目取样小,覆盖面窄。作文类型很多,体裁多样,有不同的素材来源,学生都有自己擅长的和不易写好的作文,因此,根据一篇作文评定学生的写作水平存在着片面性。
第三,有效性和客观性难以两全。为了提高评分的客观性,对文题就应作出严格的规定而限制过多,学生不易发挥想像力和创造力,从而影响写作的发挥。
第四,评定误差普遍存在。早在20世纪20年代,斯塔奇和埃利奥特对写作评分主观性作了经典性的研究,把两份学生的作文用石版复制后,请142位教师评分。结果A生得分从62分到99分不等,B生得分从50分到99分不等,其中评80分者有13个教师,是一致性最高的分值,其他评分者参差不齐。此后,国内外的学者作了大量的调查,结果颇为一致,并且采取了许多措施力图克服评分误差,但难以取得令人满意的效果。
(四)多题分项测评
把作文能力分解成若干基本因素,编制相应的小题目,借以全面评定学生的写作水平,这种测评有两种方式:
1.客观测试。选用一些客观型的试题,评定学生的写作水平,如台湾省中华儿童教育社编制的《作文基本测验》就有以下几类题目:填字、选词、组织句子、写反义词、改错、加标点、删字、扩句等。祝新华等编制的《儿童作文标准化测验》也属于这类测试方式。
2.多段短文测试。根据不同的目的,编制不同的题目,要求学生写若干短文或片断、段落。林天明(中国台湾)编制的《多段短文写作测验》就属于这种测试,题目有写片断、短小的读后感、招领启示、明信片,编拟提纲和概括段落大意等。
多题分项测试的特点是:
第一,每题所花时间少,题目量大。各种体裁形式的作文基本能力和表现手法,都可通过不同形式的分项测验得到反映,取样广泛,可降低抽样的偶然性和片面性所造成的误差,也可以减少猜测因素造成的偏差。
第二,可拟定比较具体详尽的评定标准,提高评分信度。特别是客观题,只有唯一的答案,评定准确、客观,主观性偏差较小,甚至可以用机器阅卷。据台湾学者程法泌的研究,多段短文的测验量表信度系数为0.87,明显优于传统写作测验的评分信度。
第三,有诊断作用。一份项目完整而合理的写作分项测验,能分别测出学生对于各种体裁的写作情况,测出写作基本能力。多题分项测验用于检查学生达到写作目标程度的形成性测验,是较为合适的方法。
对于这种测试能否有效地测出学生的作文能力(效度),有人还持怀疑态度。这种测试也不能过于频繁使用,否则不利于学生进行真正的写作训练,甚至会影响写作教学。
(五)综合测评
综合测评,采用客观题、短文和长文等题型测定学生的写作能力。目前,这类测评有三种形式:“客观题+短文题”、“短文题+长文题”和“客观题+短文题+长文题”。
1.“客观题+短文题”
回答几个客观题并写一段短文。例如:
第一,作文基础知识:(1)审题能力。题目《一件美好的往事》,用“|”给题目划出层次,这个题目的写作重点是。题目中的限制词语是。(2)选材能力。阅读下面的材料,把与《他的心灵真美》这个题目无关的内容在括号里划“×”(材料略)。
第二,命题作文,题目是《我的心里话》。
2.“短文题(或客观题)+长文题”
写一篇长文加一段短文或回答系列客观题。例如:
第一,以“我们的教室很整洁”为总起句写一个片断。
第二,命题作文,题目是《放学以后》。
3.“客观题+短文题+长文题”
写一篇长文、一段短文或几个客观题。这是最典型的综合测试,例如:
第一,立意。设想一下《×××同学碰到困难以后》这个作文题可以表达哪些中心?请列出三个。
第二,根据下面材料写申请书。请你以队长的身份向校长申请把某教室开辟为少先队活动室(材料略)。
第三,看图作文(略)。
综合测试以增加题量来扩大测试的覆盖面,全面考查运用各种写作方法的技能和写各种文体作文的实际能力,有利于降低猜题因素。这也是以后作文测试的一个发展方向。
四、写作测评误差的控制
影响写作测评的原因是多方面的,客观方面是写作能力因素复杂,拟定并统一执行客观评分标准很困难。主观方面,除了受评分教师本身的工作态度、能力高低的影响外,一些消极的心理效应也起着很大的作用。
(一)偏好效应
评分教师对作文有各自的偏爱,对学生的要求也有很大的不同。教师往往按照自己的偏爱去评定成绩,结果是自己喜爱的给高分,厌恶的给低分。另外,教师对学生要求不同也直接影响评分高低。有的教师多从学生方面考虑,不轻易扣分,导致“雅量偏失”;有的教师则对学生从严要求,评分吹毛求疵,导致“苛刻偏失”。克服两者的方法有:
(1)采用分析评分法。规定评分项目及其在总分中所占的比重,避免评分教师因特别重视或忽视某一方面而导致误差。
(2)制定具体的评分标准。评分标准的文字表述要言简意赅,并提供各个等级的实例作文以资对照,避免由于理解分歧而引起评分偏差。
(二)动机效应
心理学研究表明,动机的强弱直接关系到解决问题的效果。有实验表明,如果对评分教师明确提出“这次评分是用于评价教师的作文鉴别能力的”,那么他们的判分将明显偏严。动机效应的克服方法有:
(1)挑选合格的评分者。周学章曾提出选择评分人员的标准:①对测验有信任感并有兴趣。②对评分有1年-2年的经验。③忍耐力大,心思细腻并能保持长久,这是因为作文评分必须有稳定的注意力,否则容易出错。④有较高的写作能力。研究表明,教师本人的写作能力与其写作的评判力关系密切。写作能力强,则评判准确。总之,写作评分者应尽力挑选写作水平高、工作认真细致、具有一定评分经验的教师。毕业会考以及高考等大型考试更应注意评分队伍的稳定,每年更换的人数应控制在三分之一以下,以利于通过实践和经验总结,提高评分者有关技能、能力。
(2)加强评分训练。评分前认真阅读评分标准,进行试评,相互参阅评分结果,分组讨论,统一认识。
(三)晕轮效应
这种效应是指对事物的某一方面认识,影响了对其他方面的认识。
如某学生语文水平较高,教师则认为该生写作也肯定不差;某学生平时写作表现好,教师则认为该生应试时写作也肯定不差,从而给以偏高的分数。另外,对某一篇作文初始粗略感知的好坏,如开头部分的优劣,给教师留下强烈的印象,也会直接影响对整篇作文的评分。克服的方法有:采用匿名评分法,把作文上的学号、姓名____等内容密封起来,以防平时对学生某方面的认识而影响目前的判分,并进行组织人员对评分结果进行抽样复查,并把有关情况及时反馈给评分教师。
(四)位置效应
在给大量作文评分时,前后掌握的评分标准往往会不同,开始严格,以后宽松。一篇作文在一批作文中所处的位置也影响教师的评分。在连续批了几篇极差的作文后,突然出现一篇较好的就可能给予偏高的分数。
而这篇作文若放在几份更高水平的试卷后,却可能得到偏低的分数。克服的方法是在评分中后期多提要求,使评分者如开始一样仔细、谨慎,掌握评分标准始终如一,或者采用相对评分和绝对评分相结合的综合评分法。
(五)趋中效应
评分持中庸之道,既不给高分,也不打低分,往往拉不开分数距离。
调查表明,如果评分标准分五等,那么教师评分往往集中于第二、第三等,其比例可达作文总数的85%以上。这是因为在考场上的作文各方面表现都极好的确实不多;评高分或低分,更需仔细斟酌,花时费力;给高分担心没吃准便宜学生,给低分又于心不忍;给一个中等分省时省力,又可以避开复查。克服的方法有:严格依照评分标准给分;全面达到要求即给满分,未达到基本要求的给低分;突出语言(相对于内容和结构)的地位,有意识地扩大分数间距,要反对评分中做“老好人”。
(六)情绪效应
评分者心情开朗、精力充沛时,掌握标准较准确。相反,评分者在情绪低落、心情激动或头昏脑胀的情况下,评分容易主观化,情绪兴奋时易给高分,心情烦躁时易打低分。克服的方法是:作文卷的评分尽量在短期内完成,不要把时间拖得太长;作出意志努力,控制情绪。
采用“多元评分法”和“集体分项评分法”也是控制作文评分主观随意性的有效方法。所谓多元评分法是由两个以上的评分教师分别给作文评分,把平均得分作为作文的成绩。集体分项评分法是:当若干教师同时评分时,让各位评分者分项评分,每位评分者负责1个-2个项目,然后把各位教师所评的分数加起来作为作文成绩。
五、写作量表的编制程序
(一)写作参照量表的编制
编制参照量表的关键,是找出一批能代表学生各类水平的作文样本——样篇。量表两端的样篇要分别能代表最优与最劣两类作文,中间样篇要有代表性的几个等级。国外研究表明,教师对作文水平不能作太细的评判,只有在很少的情况下才能明确地将作文区分为7个等级以上,所以,用于一个年级的参照量表等级一般为5个-7个。适用面要求较广的量表,应该有不同体裁或形式的几个样篇系列。
写作参照量表编制程序的几个阶段:
1.收集样本材料。通过对学生被试的测验取得一系列的样篇备选材料。作文题目要有代表性,学生被试必须是量表适用对象的全域的一个代表性样组,如对各地区、各类型的学校、男女学生都应有适当的比例取样,否则会使样篇和常模资料产生偏差。一般地讲,样本越大越好,但考虑到作文评分或排列次序的费时费力,从实际效果考虑不宜过多,但取样一定要有代表性。
2.专家评定。请三位以上有教学经验和有较高作文水平鉴别力的教师对样篇作文评定成绩。首先对这些样篇作文按水平高低分组,然后再把各组的作文依水平排列次序。这种方法对于使用于大样本有一定的困难。因此,也可以使用分项评定法评分,如赵保纬等人编制的《小学作文参照量表》就是先按《作文评定项目和等级特征》对各篇作文逐项评定等级,然后综合这些等级数据,作为作文的总分,最后排定次序。
3.统计处理。将各个评阅者对每篇作文评定的分数相加,求得每篇作文的总平均分数。
4.编排定型。抽出每一等级内的一篇作文,作为某一等级的样篇;将每一等级若干样篇依次排列,即成作文参照量表;最后进行质量检验,如果评分有效性好,一致性高,则量表定型。
(二)七级写作参照量表的编制
七级作文量表的一般步骤,只要作适当的变换,这些步骤同样适用于编制五级或其他级数的参照量表。
1.决定所要测量的作文能力,确定体裁,分析作文基本能力。
2.确定使用量表的对象或年龄范围。
3.编制测验:命题,同时规定测验的说明、格式和时间。