• 中小学课程评价改革:主要问题及可能对策(倪娟 沈健)
  •           2011/11/28     浏览()     【
  • 中小学课程评价改革:主要问题及可能对策

    倪娟  沈健

    (江苏教育科学研究院    南京师范大学化学与材料科学学院)

    摘要:当前,我国中小学课程评价改革的问题比较突出。从评价的质与量两个属性来看,既体现为质的规定的不全面,又表现为量的判断的不科学。国际上发达国家的研究经验可为我们寻找对策提供参考,具体可从改变评价观念、加强评价问责、提升评价质量等方面入手。

     

         关键词:中小学;课程评价改革

     

         课程评价是整个课程体系的重要环节。美国学者格朗兰德曾用一个公式对评价作了简要的说明:评价=测量(量的描述)或非测量(质的描述)+价值判断。…古巴和林肯(EGGuha and YSLincoln)也认为完整的评价应该包括描述和判断两个部分。上述学者不约而同地将评价看作是在量或质的描述的基础上进行价值判断的活动,即评价包括事实判断与价值判断。据我们最近一项凋研发现,在具体的课程评价实践中,作为课程实施人员参与课程评价的愿望是有的,但或许是受客观条件、评价时间等诸多因素限制,课程评价的参与率较低,而学生作为评价主体参与学业评价也仅限于部分学校,我国课程评价主体整体来讲还是以课程专家及教育管理者为主,相对显得比较单一。课程评价的客体主要包括对课程本身的评价、对课程活动的评价和对课程实施效果的评价三个方面。这三方面的研究从已有文献资料和实践调研情况来看,就课程本身的评价相对较少,仅限于一些课程专家和学者,实践层面相对较多的是对课程活动的评价,而对课程实施效果的评价基本卜.是以考试来完全替代,形式单一,内容狭窄,即便是仅对考试而言,也受到当前测量理论与技术水平整体较落后的影响而兀法科学公正地考出学生水平。无疑,这些状况严重影响了课程评价积极作用的发挥。如果仅从事实判断这个角度来讲,我国当前课程评价实践问题可以概括为两个方面:既体现为质的规定的不全面,又表现为量的判断的不科学,从而影响到课程评价在改善学生学习和甄别学生两方面功能上的欠缺。

         一、中小学课程评价改革存在的主要问题

         1.质的异化:课程评价体系改革代之以考试改革,以偏概全

         为了全面推进素质教育,我国教育主管部门高度重视课程评价问题。200212月,教育部下发了《积极推进中小学评价与考试制度改革的通知》,明确提出“现行中小学评价与考试制度与全面推进素质教育的要求不相适应,突出反映在强调甄别与选拔功能,忽视改进与激励的功能;注重学习成绩,忽视学生全面发展和个体差异;关注结果而忽视过程,评价方法过于单一”。2003年的《教育部关于积极推进中小学评价与考试制度改革的通知》已开始真正在国家政策层面关注学校层面的评价变革。上述通知明确要求建立以促进学生发展为日标的课程评价体系,对评价目标、措施与力+法等都作出了具体规定。通知指出,中小学评价与考试制度改革的根本目的是为了更好地提高学生的综合素质和教师的教学水平;充分发挥评价促进发展的功能,使评价的过程成为促进教学发展与提高的过程。在素质教育改革与发展的关键时期教育部出台此政策,充分表明过去的评价考试制度所造成的不良后果已经到了非改不可的程度。 然而,这么多年以来,课程评价领域的变革被有意无意地试图通过不断完善选拔、鉴别功能单一的考试的变革来驱动“整个评价体系”的变革。我国在课程评价领域研究较多、实践较多的是高考、中考、高中学业水平测试。在多次评价改革过程中,人们为丰富的经验积累是关于“高考为什么改、怎样改”的问题。但是,关于基础教育课程评价改革还只是泛泛而谈。回顾21世纪以来的评价政策,强调较多的还是“考试次数的减少,出题的要求等”,其政策的关注点多放在对选拔、鉴别性的考试过度重视而引发的学校、课堂层面片面追求升学率、学生学习负担过重等,几乎没有提出任何有前瞻性的评价政策。因此,在实践层面,只要高考的模式、题型、内容有所改变,地方、学校、课堂教学等都会跟着变化。如若高考不改,各层面几乎不会进行主动的评价变革。由此可见,单一考试的完善已取代了对健全的评价体系的追求。这种机械的、以标准化测评为核心技术、以竞争选拔为目的的考试,酿成了当前我国学校课程改革难以深入推进、学生负担丝毫不减的苦果,也使得学生学业评价误入歧途、越陷越深。 考试本是评价的一种主要形式。但在我国,经历了千余年来施行的科举考试的传统影响,又历经近代科学主义倡导下延续近百年的教育评价理论和技术本身存在的一定误区的影响,现代学校教育的考试已完全替代了评价,评价功能过于片面、偏激,作为评价的一种主要形式的考试的本体功能被扭曲,进入了小考试为大考试服务、大考试为升学和选拔服务、教育教学为考试服务的恶性循环。在学校教育质量改革中,教育管理者首先关注的是如何提高学生的成绩,遗忘了评价是一种促进学生发展与完善的工具,忽视了学生的智能发展需求,而去追求所谓的评分的准确与评价的效率。因此,克服课程评价领域存在的的问题,需要实现由“测试学生的学习”到“为了学生的学习”的课程评价观的转变。为了转变因考试替代评价而造成的恶性循环,充分研究和开发注重学生学业能力、促进学生发展的课程评价模式已迫在眉睫。

         2.量的随意:测量理论与技术的落后导致命题不专业,经验主义

         重大考试通常是以分数来呈现结果的,但这个关乎学生切身利益的量却常常只能满足对学生的可区分、可选拔,至于信度、效度等方面的一些基本指标便在考虑之后了。这其中一个重要的制约因素就是由于当前重大考试命题技术较为落后。即便对于高考、中考等重要考试而言,由于测量理论与技术方面的专业欠缺导致命题比较随意,命题人员多凭经验制卷,这与发达国家比较显得十分不专业。同时,由这样的试卷取得的分数又比任何一个发达国家更被看重。因此,即便就课程评价的量的属性来看,量产生的随意性也是课程评价的一个硬伤。一方面,高考命题至今没有常模,不仅不同省份的自主命题难度悬殊,就是同一省份不同年份的试卷难易忽上忽下,难度捉摸不定。另一方面,行政化的考试组织机构也不会或者是不敢把考试相关的结果分析数据从面上公之于众,以供教学研究机构等做相关分析与反馈从而指导与服务于教学,所以很难得到有效改进。

         在我国,中高考等总结性测验的设计开发通常是由教育考试机构组织学科专家进行命题和组卷。学科专家具有的更多是学科本身的知识,通常缺乏心理与教育测量方面的知识来理解测验所要考察的心理属性,更缺乏相应的测量技术和方法来验证测验题目的质量。外部评价如此,与实际教学密切结合的课堂评价更是如此。我国一线教师通常很少受过系统的心理或教育测量理论和技术方面的训练,课堂评价任务的设计或选择往往参照外部考试的题目样例或模式,较少从当前的课程内容和学习目标出发。同时,我国高校在心理与教育测量方面的教育水平偏低,我国很少有高校开设教育和心理测量专业的课程,即使有些教育管理、师范类学生接受了教育评价课程教育,也多是重宏观轻实践、重理论轻技术。这是长期以来我国教育考试事业落后、问题迟迟得不到解决的深层次原因。

         就国内目前的状况而言,无论是从试题的命制,还是从考试结果的分析与汇报来看,我们的考试在试题质量与考试结果反馈方面都受制于经验主义,受制于测量理论与技术的明显滞后,不能满足当前考试改革、评价改革的需要。值得一提的是,我们已经能意识到或者认可上文所指出的问题,以及这些问题对学生发展直接或间接的限制,却又通常默认当前的课程评价模式为不二之选、难以替代,在研究与实践领域有意无意地有一些回避倾向。

         二、发达国家课程评价改革的经验

         我国经济相对发达的省份在课程评价领域的问题或许可以参考国际上发达国家的改革经验。因为其教育发展目标比较接近,而问题也有类似之处。比如,在进行国家课程评价试验的若干发达国家(如美国、英国、澳大利亚等),基本上已经解决了办学条件和师资问题,整个教育系统处于稳定运行状态。他们在课程评价方面的问题也主要集中在学生学科成绩的测量评价上,评价功能比较狭窄、评价观念有待改进。可以说,在这些国家,正规的课程评价一出现就是遵循一条科学与客观之路的,且由于这种科学与客观在课程评价的标准化阶段就被过分强调,因此,其评价功能被扭曲的现象也十分突出。从某种程度上讲,课程评价领域的改革也一直是伴随着他们近百年的教育测量运动的。

         仅就当前来看,在美国的基础教育领域,不管是州级、学区级还是校级的学生评价,随着课程评价与教学的高标准、与绩效责任紧紧联系在一起,在学生评价领域也掀起了新的应试风浪。美国教师也同样会为了测验而教学。在美国的课堂中,大部分教师都会教授学生应付考试的方法以及获得高分的手段,甚至还会以标准化测验的内容为依据自行改变教学内容,从而使得测验内容与教学内容相一致。虽然其形成背景及相关因素与我国有所不同,有的是因为教师希望学生通过获得高分而对学习有兴趣且能激励自尊和学习的成就感,也有的是因为测评内容本身比较狭窄、不全面,但其最主要的原因同样是高标准、高风险测验的盛行。可以说,课程评价领域的改革仍然是教育研究领域的关注热点。

         1.评价方式的改革:替代纸笔测试,拓展评价功能

         课程评价功能在质的方面的异化一方面受制于狭隘的评价观,另一方面也主要受制于单一的纸笔测试方式,这种评价方式的固有不足直接限制_『评价功能的进一步发挥。美国在其持续开展的基础教育改革中,提出并运用了在真实情景中通过让学生完成操作任务来进行一系列不同于传统测验的“另类评量”(Alternative Assessment)方法,到1991年,美国至少有40个州制定了实施某种形式的“另类评量”的计划。“另类评量”运动也促进了美国考试体系的建立。从2001年开始加州大学等高校就不采用高考成绩录取新生,改由录取小组通过各种信息资料(包括必要的面试)举手表决进行录取。“另类评量”所使用的方法多种多样,对学生的评量也是从多个方面、针对多种能力综合进行,可以被应用于从教室评估到全国乃至全世界评估的所有类型的评估背景中,并且与教学指导直接联系,是一种更加全面的多元化评价方法。比如,以往美国很多州都要求对科学探究和科学过程做出评价,但一般的多项选择纸笔测试题肯定是无法评价的,上述“另类评量”就是一。个比较适合的方法,只是实施成本较大,在大范围的推广方面要考虑经济承受力。美国课程评价领域专家认为英国和以色列在表现性评价方面做得更好。“另类评量”方法的提出,既指明了学生评价改革的方向——对真实生活和学习生活中学生的操作进行评价,同时也为教学改革指明了方向——提供一种更加真实的教学情景,它不只是一种评价方法的改革,更是一种教育思想和教育理论基础的根本革新。

         新的课程评价方式的实践,发挥了多样化的课程评价功能。除了帮助教育决策、直接改进教师教学活动、使公众和学生家长了解学生现状和需求外,通常还用以反馈到课程设置、教科书修订和教师培训(包括职前和在职)过程中去。鉴于地区、学生性别的差异,在这种学科成绩分析报告中,通常会结合一定范围内学生家庭、所在学校和社区的背景因素进行综合分析,以更客观、更恰当地进行反馈,发挥评价应有的促进学生学科学习、促进学生发展的功能。因此,全国性的课程评价的主要目的是用于诊断学生学习过程中的缺陷,以便调整教材、教学的进度和深度。近年来,各发达国家都日益重视课程评价在教育发展中的作用。如美国、英国都着手建立健全国家课程评价制度用于帮助教育决策,利用教育信息改进教育质量;有些国家除用于国家教育政策外,还通过教育评价向公众和学生家长展示学生学习成绩的现状及受教育的需求,通过对学校的背景因素进行分析,从课程设计、教学过程、教学手段等方面提出改进教育质量的建议等等。

         2. 测量技术的改进:提高命题质量,深化结果反馈

         在美国著名的教育测量公司ACT的大规模考试中,一道题目从设计伊始到最终进入考试试卷,需要经历至少16道程序的检测,历时23年。这其中既有包括学科专家、测量学专家在内的题目评审小组的审核,也有基于预测数据的测量学分析。题目质量的评审涉及到内容、认知、题型、反应时间、公平性以及常见的难度和区分度等测量学指标。这种严格遵循详尽系统的测量学规范和步骤的测验开发过程无疑对我国教育考试的专业化有着深刻的借鉴意义。

         随着计算机技术的不断普及以及现代测量理论的迅猛发展,构建大型的教育测量和考试题库已成为可能。美国著名测量公司CTB/McGraw Hill目前已经开发了一个容纳有70000个题目的大型题库,包括了美国中小学阶段各个学科的内容。利用现代测量理论,如项目反应理论,既可以保证纳入题库中的测验题目的测量学指标,还可以确保不同的测验题目在共同的测量尺度上测量相同的心理或教育属性,从而保证了从题库中生成的各种测验在测量属性上的同质性。大型题库的存在是自动化组卷技术的物质前提。自动化组卷可以在几秒之内完成几十、甚至几百套试卷的组卷任务,并能严格保证每套试卷满足多达上百种的技术要求,或者保证不同试卷间的一致性,为我国大规模考试提供了很好的借鉴。目前,国际上所提倡的连续性评价的做法就是建立在计算机化的题库建设和自动化组卷技术基础之上的。大型题库的建设还是计算机适应性测验的基础。计算机适应性测验以项目反应理论为依据,根据学生对己经呈现的问题的回答情况动态调整后继测验题目的呈现,避免了传统纸笔测验中因题目过难或过易而导致的测量效率的降低。采用计算机适应性测验具有高效、准确、计分迅速和反馈及时等多种优点,因此,我国教育考试和评价宜多采用计算机化的测验模式。计算机化测验还可以与当前国际上流行的认知诊断测验相结合,用测量学技术从学生回答问题的反应模式中挖掘深层信息,为教育实际工作者提供具有诊断性的反馈信息。

         在考试结果的分析和汇报方面,通过运用现代测量理论建立测验分数的测量尺度以及不同分数的实质含义,使教育考试的分数具有像长度或重量那样的特征,从而使对考试结果的解释不依赖于某个具体的测验,能够在同一个尺度上对不同学生个体和集体进行描述和比较。共同测量尺度的建立提供了描述和追踪学生学习和发展变化的基础和可能。

         随着学习科学的发展、心理测量技术的日益完善,以上对现有纸笔考试的改革在我国发达省份当具有现实可能性。

         三、可能对策:对我国课程评价改革的几个建议

         实施新一轮课程改革十余年来,课程评价改革已经从思想理念的范畴转入到实质性的探索和深入研究阶段;从小范围、小规模的尝试性试验逐渐推向较大范围和较大规模的立项研究和广泛交流,研究者达成了一定范围的共识。可以说,经过近十年的观念转变、理念更新过程,课程评价改革现在已步人了尝试性摸索的边实践边研究的探索阶段。在这个阶段,以发达国家课程评价改革的已有经验为参考,可为我们决策提供一些建议。

         1.改变评价观念:推进多样化评价方式

         对于以纸笔测试来替代课程评价的问题,国内外研究者的观点基本一致,即认为转变课程评价观是解决问题的根本。要想使课程评价能够发挥对学生发展的积极作用,我们必须走出评价功能的误区,把选拔性考试与基础教育学生评价分开对待。当然,在转变评价观念、创新评价方式的同时,还需要加强评价标准的制定。比如教学评价标准、学生学业评价标准、教师评价能力标准等等一系列评价标准的研发。另外,另类评价方式的实现要求有新的测量评价工具的研发。

         2.加强评价问责:建立促进学习的评价体系

         在近期国内外的学术和实践研究中,将课堂、学校层面所产生的信息和大规模的问责机制相联系的趋势日益增强。根据国家层面的课程评价体系,建立地方、学校、课堂层面上的“促进学生学习的评价”体系;加快建立与新型课程评价模式、评价内容相适应的问责机制;将“促进学生学习的评价”的体系所得到的信息应用于各级教育问责体系。

         在很多地方和大多数学校中,教学管理人员包括校长同样非常缺乏正确的学生评价观念以及新的学生评价知识,所使用的评价模式仍然十分传统,无法调动广大教师改革学生评价方式的积极性和创造性。即使教师被要求进行改革,他们也不愿意去做那些“份外”的事情。所以,往往在花了大量的时间和人力之后,教师们又都回到原来的老路上去。为此,必须要加强对评价方式、评价内容与教学目标之间一致性的引导与问责。破旧立新的深层次的变革也许在一开始尤其需要建立相应的问责机制,强制人轨、整体推进,唯其如此,当下课程评价问题的突破、促进学生学习的评价体系才有望全面实现。

         比如江苏省教育厅两年前就提出规范中小学办学行为的“五严”规定,其中第一条为:“严格禁止下达高(中)考升学指标。各地各有关部门和学校要坚持正确的政绩观和质量观,……”;第四条为:“严格规范考试和招生管理。各地各有关部门和学校要规范考试科目,从严控制考试次数。……加快高考招生社会化改革步伐,尽快推行网上报名,高考成绩由省级招生机构直接发放给考生本人。……”“凡是有中小学,被省或市查实存在违规行为,包括作息时间表或课表存在弄虚作假现象的,除了在督查通报中按照有关规定进行处分和责任追究外,所在县(市、区)政府教育工作在3年内的县级政府教育工作督导评估考核的市级复查与省级抽查中,有关素质教育方面考核指标方面一律实行一票否决,同时,所在县(市、区)、有关学校及校长本人在省或市级的各类评优评先中一票否决。”此外,畅通的举报信息渠道和严厉的惩罚,有效地推进了课程评价观念的转变,促进了课程评价与教学、课程目标之间的一致性。

         3.提升评价质量:加强教师的课程评价理论与测量技术培训

         (1)课程评价理论的培训

         由于广大教师没有掌握开展学生评价的必备知识和技能,不能正确地实施评价,所以在许多情况下给学生带来了不应有的损失。例如,评价信息不全面或不真实、评价结论不正确,使得学生、家长以及其他使用评价信息的人,往往对学生的身心发展和学业成就做出错误的判断,从而选择了不恰当的教育方法和策略,影响了学生的健康成长。教学第一线人员,尤其是中小学教师,缺乏课程评价的理论知识和支持性的资料与信息,他们不适应先进的学生评价理念,更不知道应当如何进行新的评价操作,非常需要在学生评价的程序与方法上得到及时、有效的指导。在培养教师的大学教学中,无论是本科生还是研究生,几乎都没有把教育评价作为必修内容,很多学校未开设过评价与测量课程,没有教学生如何在教学工作中开展学生评价,教师也很少强调这方面知识的重要性。这是导致上面提到的在职教师缺乏教育评价理论和技能的重要原因。

         (2)评价测量技术的提高

         我国教育考试目前的实践虽然在整体的设计思路上与国际上同类测验相似,但在具体环节的实施上还有很大差距,直接影响到测验目的的达成和测验结果的质量。这种差距主要体现在测验编制过程中对测量学问题的思考不足,对相关测量学技术的应用程度不够。比如,在测验题目开发方面,我们更多依赖命题专家的经验和判断,较少严格遵循详尽系统的测量学规范和步骤。我们较少组织测验题目的预测,并根据学生实际回答的数据进行测量学方面的分析,检验题目选项是否符合了预期功能、是否测量了应该测量的东西、是否对不同性别或地区的学生是公平的等等。这种经验式的命题和组卷模式直接影响到最终测验的稳定性和准确性,降低了对学生学习情况进行推断的有效性。

         因此,必须要加强对考试的分值、题型、题量、难度、等第划分方式等等的细化研究,使得教育测验的设计开发按照更加科学、正确的程序进行。同时,要提高命题质量和深化考试结果的分析与反馈。另外,要提高我国大规模考试的专业化水平。大规模考试的设计、开发、实施和分析是一项复杂的系统工程,涉及到课程、学科、测量学、心理学以及计算机技术等方面,需要不同背景的专业人士组成研发团队,团结合作,紧密配合,在不同的层面上组成梯队。   

     

  • 返回顶部】 【关闭】 【打印
  相关文章
  • 暂无相关文章
  • 网友评论
  • 登录 现在有条评论 查看全部评论
  • 标题:
  • 内容:
  • 验证码: