学业评价专题　_松原教师研修网

学业评价专题　

发布日期：2013/5/14 15:26:33 浏览人数:2967 编辑：科研处

摘要：

学业测评系列之二

试题与试卷：背后不简单

　　　　【专家】

一份好试卷应有怎样的标准

　　■黄牧航张泽惠

　　纸笔测验作为日常教育测量最常用的手段，其试题命制水平的高低直接影响考试评价的效果，也成为衡量教师专业素养高低的重要指标之一。一份好试题的标准是什么？本文简单归纳出十点，供参考。

　　基于课程标准。自2001年教育部颁布《基础教育课程改革纲要（试行）》以来，课程标准成为教材编写、课堂教学、考试评价的重要依据。其中，基于课程标准的考试评价是极其重要的一环，既反映了新课程改革的必然要求，也成为有效推动教育改革的工具。测试题目的开发，必须保持与课程标准的高度一致，即试题所测量的知识、技能和其他心理结构应与标准的相应规定相契合。一份依据课程标准、反映国家对学生期望的试卷，才能算是一份好试卷。

　　学科知识准确无误。一份以测验学生为目的的试卷本身应该确保科学无误，才能对测量产生最基本的公信力和积极影响，这是命题的最基本要求。命题的科学性指的是试题内容要呈现基础的学科知识，确保表述的准确无误以及在观念上体现时代特征，力求避免学科知识的“繁、难、偏、旧”，同时还要兼顾新课程多种版本教材的融合。

　　有正确的价值取向。一份好的试卷应该有自己鲜明、正确的价值取向，应该立足于帮助所有学生改善学习而不是惩罚学生。只有传递“为学习而考试”的建设性理念和一视同仁的公平价值观，才能真正体现现代教育促进学生发展的核心宗旨。具体就一份试卷的价值取向来说，应当与本学科课程标准所追求的价值观保持一致，一份好的试卷必须蕴含高远立意，彰显核心价值，体现育人功能。

　　有明确的考核目标。考试是目的性很强的活动，因此判断一份试卷优劣的重要标准之一就是看它是否最终实现了考核目标。为了保证目标的落实，关键是严格制订双向细目表来规范命题，避免主观随意性和经验化处理。其中，知识内容维度要有代表性，既覆盖本学科较宽的知识面或主题，又突出重要的知识点，做到点面结合，且各部分权重宜与教学时数的比重相适应；认知水平维度可参照学科的能力水平目标，每一水平与各个知识内容维度对应匹配；赋予各部分的题量和分数必须合理，并选择合适的题型呈现出来，主客观题由于考查的侧重点不同，在搭配上也要讲究。

　　命题素材来源广泛。新课程强调情境化和体验性，而来源广泛、丰富多元的命题素材恰恰为一份试题营造多元化情境提供支撑。任何一个学科都拥有自己学科特色的素材资源库，命题者要善于发现这些资源，并将其转化融入到试卷当中，在测验的同时拓展学生的视野。

　　呈现形式丰富多彩。丰富的形式有助于更好地达成目的。无论题型还是试题材料的呈现形式，都可采取多样的形式。从题型方面看，一份试题呈现的题型越多样，所发挥的测验功能就越全面。从试卷的呈现材料看，试题形式丰富多彩，能减少学生阅读的疲劳感和乏味感，提升试卷的亲和度。可视性、可读性强的卷子传递了师者以生为本的教育理念，是受学生欢迎的好试卷。

　　命题思路灵活多样。命题思路主要是指命题者对学科知识的组织方式和提问方法。知识有不同的分类，不同的教育工作者，又往往会持有不同的知识取向，这些学科知识观的差异势必影响到命题思路的多样性。此外，提问的方法往往取决于命题者对知识理解的切入角度，角度越新奇、独特、多样，就越能开拓考生的思维，激发考生的创造力。一份好的试卷，应该有灵活多变的思路，这意味着对学科知识有多种多样的组织、理解和应用。当然，任何学科知识都源自人类的社会生活实践，好的命题思路也源自命题者对学科知识深入透彻的理解，否则就容易产生偏题、怪题。

　　有较好的效度、信度、难度和区分度。效度是指一个测量对其所要测量的特质准确测量的程度，高效度的测量才有价值。信度即测量结果的一致性、稳定性或可靠性的程度。难度即试题的难易程度，不同性质的考试所需的试题平均难度有所不同，选拔性的高考难度一般介于0.5至0.6，通过性的学业水平考试难度一般介于0.7至0.8，日常的检查性考试难度可以更高一些。还有一个指标是与难度密切相关的区分度，它是指对不同水平学生的鉴别程度，一般中等难度的试卷区分度最高。区分度的高低同样得依据考试的目的和性质而定。一份试卷要称得上质量良好，上述四个指标必须都达标才行。

　　评分标准鼓励创新，便于操作。一份合格的试卷必须配备一份规范的评分标准。所谓规范，至少要明确具体、可操作性强，以便为阅卷老师提供统一的指导，尽最大可能减少评分误差。同时，一份好试卷的评分标准还必须追求创新。近几年引进的SOLO分层评价法则是一种较为先进的评分方法，另外还有PTA量表法、PISA评估法和国际上其他先进的评分技术也是值得我们借鉴和探究的。

　　编辑规范、编排合理、印刷清晰。试卷文字的表述严谨，简明扼要，使用的语法和标点符号符合规范，呈现的图表要与问题材料形成统一的整体，符合学生的阅读习惯。试卷编排一般按照客观性程度的高低排列各种题目类型，客观性程度较高的选择题、是非题、填空题在前，客观性程度较低的简答题、应用题、论述题在后；同类试题由易到难排列，设问也要层层递进，避免学生在交错的试题类型和过难的试题中浪费时间。使用图表、照片或清晰度要求较高的资料时，应该特别注意印刷清晰，便于阅读。

　　广大教师要树立正确的评价理念，掌握好扎实的知识和命题中的各种技术，命制出科学、规范的试卷，将考试测验转化为提高课堂教学质量、促进学生发展的途径。

　　（黄牧航华南师范大学基础教育培训与研究院教授、副院长

　　张泽惠华南师范大学历史文化学院课程与教学论研究生）

学业测评系列之三

　　单一纸笔测试、过于注重分数和以分数作为排名、甄别和选拔手段的学业测评越来越受到质疑，目前，关于学业测评出现了许多新理念和新视角。除了传统的评价观，我们又该如何去面对学业测评呢？——编者

以自适应的计算机考试改进学业测评

——访美国伊利诺伊大学香槟分校张华华教授

　　■本报记者赵小雅

　　张华华，美国伊利诺伊大学香槟分校教育心理系兼心理系和统计系终身教授。曾担任美国教育考试服务中心(ETS)研究员、美国国家医学考试中心(NBME)高级心理测验专家和计算机化考试技术研究所主任。目前主要研究方向是项目反应理论(IRT)的发展和应用，包括计算机自适应测验、项目功能差异、认知诊断等方向。同时，他还担任世界心理测量学会(Psychometric Society)主席。针对学业测评的相关问题，他接受了记者专访。

　　记者：学业测评对国内许多一线教育工作者来说可能还有些陌生，该如何理解和认识学业测评？

　　张华华：学业测评应该分两个概念来理解，即测量和评价。测量是把数据测出来，就像量身高、体重等，有了数据以后，要对数据进行分析与评价，这就是评价。学业评价是建立在学业测量数据基础上的分析和评价，是价值判断。

　　学业测评有两种类型。一种是评估政府的教育政绩、评价教育的进程，这样的测评一定是抽样的。在美国，有“国家成绩报告单”（NAEP)，实际就是国家教育进步评估报告，这个报告是一个全国抽样的调查报告，反映的是整个美国按人口统计的整体状况，其中涉及项目很多，也很细，各个调查项目可以动态组合。如了解每天看4小时电视的儿童的成绩怎么样，每天领取免费午餐的中学生的成绩怎么样，在国外驻军人员子女的成绩怎么样，私立学校学生怎么样，天主教徒家庭学生怎么样，等等。每年这个国家成绩报告单公布的时候，国家电视网络会在黄金时段加以评论。

　　另一种类型是对学生个人的测评，比如每个学生都要参加的统考。

　　目前，国内的学业测评基本上还是纸笔考试，并且结果以分数的方式表达。但从测量的角度讲，我认为这种方式将会被基于电脑网络的考试所取代。纸笔考试的最大弊端是很多生动的材料无法反映出来，比如医生资格考试中需要听到心脏跳动的声音，这在纸笔考试中就无法实现，而用电脑就可实现。纸笔考试虽然也能进行学业测量，但是太落后了，一方面是手段上落后，无法呈现形象、环境等真实情境下的内容，另外，考试安全也是一个很大问题。中国每年都在考试安全上花很大力气，如有的考试保密室设三道铁门，可还是会出问题。如果进行电脑化考试，建设大容量题库，考试时试卷自动生成，安全问题就会解决，因为背一套试卷没用，要偷整个试题库并记住也不太可能。

　　此外，纸笔考试用一张试卷去测试所有学生，这可能对一些学生显得太简单，而对另外一些学生又太难，这样就测不出学生真实水平，不知道真实水平就不能为学生提供帮助，尤其是差生。如果是零分试卷的话，就表明你将对这个学生一无所知。如果用网络自适应考试，根据学生答对答错情况不断调整试题，遇到学生不会的题目，系统自动降低标准，一直降到会的程度，这样才会测出学生真实水平。应该说，目前计算机介入考试和测评已经完全可以实现了，如现在的托福、GRE等都是这样的模式。计算机介入学业测评将是一个趋势。

　　记者：如何认识学业测评的意义与价值？

　　张华华：现在内地的许多学业测评只是满足于把分数测出来并对学生进行排队，这实际是做到一半就停住了。应该对这个成绩进行分析，然后用于诊断与改进。我建议采用自适应的计算机考试，建立诊断性模型。考试前教师和专家要定义这些题目要考查学生的什么能力。比如，测试学生的计算能力，一个学生考了70分，通过专家分析得出该学生加法和乘法还可以，减法稍差，除法一点都不行，学生的老师一看马上就知道需要在哪些方面帮助这个学生。

　　中国是一个考试大国，但实际上对考试的研究还非常少。在美国，一个考试公司可能光员工就几百人甚至几千人。在美国，考试是市场行为，受公民监督，考试公司为了吸引客户，就必须进行科研，如果你的考试做得不好，大家就都不来参加你组织的考试了。而在中国，考试是政府行为，你想不想考都必须参加。

　　中国的学业测量，我认为存在两个问题，一是投入力量比较少，二是理念和手段比较落后。据我了解，在国家层面虽然设有一个监测中心，但人员较少，科研力量和经费也非常有限，人员大量的时间在出差、监考、分析等，并没有太多时间进行科研。在学校层面，日常测试、测验等大多是题海战术，只是为了应试，这是因为没有一个正确的测量观。

　　中国教师缺少测量素养，也没有这方面的培训。在美国，在大学毕业生进入中小学教师行列的培训中，测量课是必修内容，因为教师将来必须测量学生，如果不懂测量学，只搞题海战术是不行的。美国各个培养教师的高校都有测量学的教学人员，而在中国只有少数几个高校有，力量也相对薄弱。

　　学业测评涉及教育公平问题。各项报告不能只报喜、不报忧，以美国为例，国会专门成立了监督机构对国家成绩报告单项目（NAEP）的各个环节进行监控。学业测评还应涉及考试公平问题，要避免偏题、怪题。例如，数学应用题的文字描述要选择考生熟悉的内容。一个大型考试的试卷通常要经过这些环节：第一要预测，预测好了之后才知道一个题目可用不可用，我们的问题是高考一年就一次，风险过分集中，就无法预测，而美国的高考一年可以很多次，考生也可以多次参加高考。在中国，全国集中力量去搞一张考卷几十题，太集中了，而且缺少测量学方面的研究。第二是题库的使用和管理。考题的好坏，从统计学的角度讲，有难度系数和区分度系数，太难和太容易都不行。许多美国考试公司可以随时组装几十套试卷，每次考试随机抽取一套，难度都是一致的。第三是考后要有数据分析和诊断，使考分具有跨时间、区域的可比性，这都需要开发各类应用软件。国内近年来开发了不少题库，但由于缺乏应用软件，这些题库仅仅成为“题堆”，而非具有应用价值的题库。

　　国内对测量工具的研究不太重视。学业测评的测量工具和测量模型很重要，这是需要投入资金和人力进行科研的。一个好的测量工具，应有自适应、有诊断、有效度验证，这就是一个基于网络的具有自适应能力的试卷。

　　记者：对于国内的学业测评工作，您有什么建议？

　　张华华：一是要对中小学教师进行学业测量的培训。因为教师是要出卷子的，教师不懂测量就会陷入题海。二是建立国家监控项目，提交国家成绩报告单。虽然现在有人在做这个事情，但是很有限。美国大约有1000人在做国家成绩报告单，而中国的情况更复杂，而且专业人员更少，所以政府应该更加重视这个问题。中国有很多考试院，但都是行政性的，更多的侧重事务性的工作，并不进行科研。专家团队也只是临时组织，缺少专业态度，试卷一旦出问题，没有人负责。三是要重视计算机在学业测评中的作用。学业测评的最新趋势就是电脑化、自适应化、网络化、多元化。从这个意义上说，政府要加大学业质量测评方面的投入，除了要提高教师的测量意识之外，还要着力做好学业质量分析的工作。

　　《中国教育报》2013年3月20日第9版

学业测评系列之四

PISA给我们提供什么借鉴

　　大规模测评越来越受到重视，教育中的很多重要问题，尤其是一些宏观问题，如国家的整体教育质量，都需要大规模测评结果来回答。那么，当前我国的大规模测评进展如何？还存在哪些问题？我们又能向世界上成熟的大规模测评借鉴什么？——编者

　　■陆璟

　　PISA的特点

　　提倡“为生活而学习”。PISA所评价的“素养”是学生在多大程度上能将学到的东西推及其他，以及用学到的知识和技能解决各种背景中的实际问题，这一取向反映了学校教育目标和课程目标越来越多地关注学生能运用他们在学校里学到的内容做什么，而不单单看他们是否掌握了特定的课程内容。

　　是一项前瞻性的测试。PISA关注终身学习能力，包括具备知识技能基础、学习的内在动力以及自主学习的能力，所以它评价的是学生对关键概念的整体理解和如何用已经掌握的知识和技能解决新情境中的问题，同时它还研究学生的学习策略、跨学科的问题解决能力，以及对不同议题的兴趣。

　　侧重基础知识的运用能力。PISA评价教育系统是否能够培养合格的公民，而不是培养科学家、数学家、文学家，所以它涉及的学科知识要求是基础的，提问的视角是结合生活情境的。要正确回答PISA试题，学生只需理解基本概念，灵活运用他们已经掌握的知识和能力，无需特别准备。

　　所测评的素养随社会经济的发展而变化。PISA测评的素养是随着社会需要的发展而不断发展的，一是体现为认知测评领域的扩展，在阅读、数学、科学等核心领域的基础上，增加了问题解决、计算机辅助阅读和数学测试；二是对态度和参与度的测评也在不断发展，例如对阅读参与度和学习策略的测评中，2000年评价了个人阅读参与度和学习策略的运用，2009又增加了学校阅读参与度和认知策略。

　　PISA的功能

　　PISA的主要目的是改进教育政策，而不是筛选学生，由于实施过程严格，结论基于证据，所以已经成为一项权威研究，对各国教育政策产生了很大的影响。

　　倡导多维教育质量观。PISA不是简单地报告学生的成绩（常模参照），它还分析主要测评领域的能力结构，将学生的阅读、数学、科学素养区分为若干精熟度水平，描述达到每个水平的学生能够做什么（标准参照），提供更加全面具体的质量信息。从整个教育系统来看，好的教育系统不仅质量要高，而且应该是公平的，因此，PISA研究不同社会经济背景的学生能否获得同样的学习机会和教育资源、能否达到同样的能力水平。此外，PISA还研究教育投入和资源分配与PISA成绩的关系，分析教育的成本效益。

　　树立新的质量标杆。PISA给出了各国平均成绩的排名，使各国教育决策者从别国的成绩中反思自己的政策，寻找更有效能的教育政策。他们把PISA结果用于以下这些方面：比较本国与其他国家学生的知识和技能，发现本国教育的问题和差距；衡量教育的进步程度，让政策制定者了解本国取得的成绩与其他国家相比较如何；用其他国家取得的成绩作为标杆，来设置教育改进的基准；学习和研究其他国家好的做法，寻找改进教育的政策措施和路径。

　　提供政策借鉴。PISA不仅要向政策制定者描述结果，而且还要提供改进的方法和过程性的信息。所以，PISA不只是对成绩的统计分析，还要收集其他数据，包括教育系统、家庭、学生个人特征等方面对成绩的影响，使政策制定者能够对影响学业结果的因素和模式作出推断，知道为什么会产生这样的成绩，怎样改进。

　　PISA的借鉴

　　制定精细的技术标准和实施手册。为了保证PISA结果的真实性，OECD制定了19个方面57条PISA技术标准，对组织机构、工作人员、项目工作会议和培训、抽样、测试语言、测试参与率、翻译、考场、保密工作、材料的印刷、评卷、数据提交、数据管理、材料保管等工作做了严格细致的规定。PISA国际专业协作组织开发了系列实施手册和工作表格，各参与国（地区）与OECD及PISA国际专业协作组织之间要签订多种严格的协议或计划。这些标准、手册、表格、协议和计划是保证PISA实施质量和数据可靠性的关键。

　　采用抽样方法减轻学生和学校的负担。由于PISA的研究目的主要是改进教育政策，是对教育系统的整体评价，无需对个体的学校和学生作出评价，因此参加测试的学生和学校都采用抽样的方法选取，只需很小的样本就能够充分反映总体的情况，大大减轻了学校和学生的负担。区域和国家层面的教育质量监测工作最主要的目的是了解整体的教育质量，因此在参加的对象和测试的题目上也可以采取抽样的方法。

　　从命题程序和技术上保证命题的科学性和公平性。PISA试题都必须符合命题框架和试题提交指南的要求，使得试题评价背景、知识内容、能力和难度上都有广泛的覆盖面，并且考虑各方面内容的平衡。这样设计出来的题目风格、质量、难度要求都是一致的。尽可能用严格的管理程序和测量技术保证试题的规范性、科学性、公平性和可比性，减少命题专家个人因素的影响。

　　对学生的能力作出最佳估计。PISA的评分标准是根据学生的回答发展出来的，而不是教师拟定的标准答案，体现了学生的视角和思维水平。PISA评分的基本原则是对学生能力作出最佳估计，根据学生在多大程度上能够证明自己回答该问题的能力，把学生分为“满分”、“部分分数”和“零分”三个等级，评分建立在一个学生如何证明自己对该文章或问题的理解和回答的基础上。

　　（作者系上海市教育科学研究院普教所副所长、PISA中国上海项目组秘书长）

《中国教育报》2013年3月27日第9版

学业测评系列之五

　　学业测评的结果应如何运用？仅仅用于排名和分出高下吗？我们该怎样解读测评数据？怎样运用测评数据？也许数据背后的意义才应该成为被关注的焦点。——编者

测评数据：关注更为广泛和真实的含义

　　“有什么样的评价，就会有什么样的行为，如果评价不公平，那么所有的学校和教师要么都去抢夺好学生、择优而教，要么因为自己的努力不被认可而自暴自弃。一个好的学校或教师评价方法，需要真实客观地判断学校和教师本身的努力程度。”

增值评价：促进所有学生的学业进步

　　■马晓强

　　增值评价是什么

　　基于学生学业成就的评价在世界范围内已成为普遍趋势。越来越多的国家将学生学业成就作为评价教育质量的核心因素，并基于学生学业成就进行区域教育质量评价、学校教育质量评价、教师教学效果评价和学生个体发展水平评价。以经济合作与发展组织（OECD）的PISA测试为代表，用学生学业成就水平来衡量世界各国教育质量的高低也已成为共识。

　　但如何将学业成就测评数据用于教育评价，在评价实践中有两种不同的方法。一是对学业测评成绩本身进行分析评价，包括学生之间、班级之间的成绩比较，以及与某一设定目标值的差距分析。例如以60分为合格、90分为优秀的标准，计算合格率、优秀率等。此种方法最大的缺点在于没有考虑学业成就的影响因素。学生的某一次学习成就测评结果是多个因素影响的结果，例如学生以前的学习基础、学生所在学校的条件、教师水平等，如果不考虑这些影响因素，我们对学生学业成就仅是知其然，而不知其所以然。正是基于此，在对学生学业成就的评价中，人们尝试采用第二种方法，即将各种相关影响因素考虑进来，得到学生学业成就数据背后更为广泛和真实的含义，增值评价正是在此种背景下发展起来的。

　　增值评价就是以学生的学业成就为评价依据，通过相关的统计分析技术，把学校对学生发展的影响从诸多相关因素中分解出来，特别是要把学生的前期学业成就水平对现在学业成就水平的影响剥离出去，从而考查学生在前后两次学业成就测评期间的进步幅度，以及学校、教师等对学生学业成就教育的“净”影响。

　　增值评价的两个突出特点

　　测量是基础，改进是行动，评价则是联结测量和改进的纽带。与其他基于学业成就测评的评价方法相比较，增值评价具有两个突出特点。

　　增值评价是推进素质教育的有力抓手。它将学生学业成就进步和变化作为评价的核心，强调教育的核心使命是教好每一个学生，确保每一个学生进步。学校教育质量的高低不在于有多少学生升学，而在于让每一个学生都体验进步和成功的快乐，这与素质教育倡导的面向全体学生，促进学生全面发展的目标完全契合。

　　增值评价相对公正客观。有什么样的评价，就会有什么样的行为，如果评价不公平，那么所有的学校和教师要么都去抢夺好学生、择优而教，要么因为自己的努力不被认可而自暴自弃。一个好的学校或教师评价方法，需要真实客观地判断学校和教师本身的努力程度，如教育教学管理、校园文化、校风建设等，而将学校的办学条件、教育经费等学校和教师不能改变的先天差距排除在外。这样的评价，才能真正让学校和教师看到通过自身努力所发生的变化，也才能真正评价出学校和教师的工作绩效。增值评价正是如此，它以每个学生的学业进步和发展为依据，着眼于考察学校对学生发展的引导和辅助提升功能。通过增值评价，将学生学业成就测评数据背后的众多因素分离出来，如家庭背景、学校可得到的经费和资源等，了解到教师、学校对学生学业成就的真正影响。在增值评价中获得好评的学校，才是一所真正的好学校，增值评价也因此成为名副其实的教师和学校影响力评价。

　　增值评价还具有较好的可操作性。它在发展性评价理念的指引下，有十分清楚的评价程序、方法和规则，能够得出易于解释的评价结果。

　　告诉你测评数据背后的信息

　　由于增值评价的上述特点，我们可以通过增值评价，从学生学业成就测评数据中，经过分析得到更多信息。

　　每一个学生学业进步幅度的大小。比较学生在一定时间内前后两次学业成就测评的数据，可以清晰地了解与其他类似起点的同学相比，该学生的进步是大还是小，这相对于简单地拿一次测评数据进行比较来说，更具合理性，对学生学业成就指导也更有针对性。

　　教师和学校在学生学业进步中的真正作用。在对学校和教师进行评价时，采用增值评价的方法，更有利于引导学校和教师实现从重投入到重过程、从重生源到重培养、从单纯注重结果到关注教育全过程评价的转变。对于那些各方面基础条件较差，长期得不到重视而仍然做了大量工作的学校，增值评价能够充分反映出他们的努力程度，从而科学合理地反映每一所学校的工作绩效，这有助于建立科学的教育发展观，从而公平合理、科学全面地评价学校、教师等。

　　学习困难学生和薄弱学校的改进程度。传统评价对学习困难学生和薄弱学校缺少关注，他们被掩盖在平均成绩之中。通过增值评价，可以清晰地看到学习困难学生在学业上进步的大小、薄弱学校在加强学校管理、提高教育教学质量上每一点滴的进步，这对促进教育公平具有重要的引领作用。

　　也正是由于增值评价的这些优点，20世纪90年代以来，学校增值评价在英国、美国等发达国家逐步推广和实施，并在教育督导和绩效考核等领域得到广泛应用。国内也有越来越多的地区在教育质量评价中引入增值评价。（作者系中国教育科学研究院博士）

学业测评系列之六

　　课堂评价，看起来与学业测评的距离似乎有点远，但是学业测评与课程与教学却是紧密相关的。指向促进学生学习的课堂评价以及教师的评价素养直接影响到学生学业成就的高低——

课堂评价：与学生学业成绩密切相关

　　教师必须从追问或澄清“学生学会了什么”开始自己的课程教学，并在此过程中实现自己的专业发展——

“学生学会了什么”是评价的基点

　　■崔允漷

　　“学生真的学会了吗？”这是一个非常值得认真探讨的课程问题。因为，“学生学会了什么”既是教学的起点，又是教学的归宿；既规定教学过程的方向，又提供教学有效的证据。

　　“学生学会了什么”催生课程理念

　　早期教育家都站在“教”的立场上思考教育教学问题，虽然确实为教育走向专业化作出了重要贡献，但始终缺乏科学证据。真正以“科学”的方法来编制课程的是美国教育学家博比特，他的贡献在于从“学习活动设计”中将“学生学会了什么”的问题突显出来，宣告课程从此诞生了。然而，真正用“科学”的方法解决“学生学会了什么”的人是现代课程理论之父泰勒，他认为，在任何课程发展工作上，都必须回答：（1）学校应该达到哪些目标？（2）提供哪些教育经验才能实现这些目标？（3）怎样才能有效地组织这些教育经验？（4）怎样才能确定这些目标正在得到实现？泰勒原理不仅明确提出以“目标”代替“目的”，并将之贯穿课程发展的始终，而且还把“评价学生真的学会了什么”作为关键的一个要素，确保教育目的的实现。

　　课程不同于教育的“理性思辨”——关注作为理想的目的，涉及以“为什么教”为统领的“教什么”、“怎么教”的问题；课程源自“科学的方法”，如科学的调查研究、投票或民意调查，倡导基于证据的推理，涉及以“学生学会了什么”为统领的目标、内容、实施与评价的一致性问题。

　　何为“学生学会了什么”

　　泰勒的学生布卢姆及其追随者为“学生学会了什么”的实证化在理论上作出了重要贡献。然而，就实用而言，仍存在一些重要的课题需要我们继续探讨，尤其是他提出的分类框架在教学实践的指导力上存在缺陷。笔者尝试从三个角度提出新的“学生学会了什么”的分类设想。

　　指向习得结果的三类目标。从最终习得的结果来分解“学生学会了什么”，就有三种目标：一是成果性目标，该类目标所采用的行为动词都是成果性的。二是过程性目标，即学习经历就是所需要的学习结果，该类目标采取的行为动词往往是经历、体验、体会等。三是创造性目标，即涵盖学习经历与学习结果的目标，其过程往往是可预设的，其结果是重要的，但却是开放的、难以预设成果的，该类目标采取的行为动词通常是制作、设计、表演、创作等。这样分类最大的贡献是结合具体的知识与技能，从宏大的目的出发将“有价值的结果”落到实处。此外，它不仅关注了成果性的知识与技能目标，而且还能关注到过程性的过程与方法目标，以及通过“结果的留白”引导学生自主创新的目标。

　　指向意义形成的三阶目标。从学生学习意义形成的过程来看“学生学会了什么”，大概可以分成三层阶梯式的目标：一是知识与技能目标，即“什么是值得学习的”或关于“是什么”的目标；二是过程与方法目标，即关于“怎样习得特定的知识与技能”的目标；三是意义与价值目标，即“通过此过程习得特定的知识与技能对学生有何意义”的目标。此分类的意义在于让教师认识到“教书”不等于“育人”，“育人”的关键在于让学生通过经历正确的“过程与方法”来获得必要的“知识与技能”。

　　指向教学实践的三维目标。从教师教学实践的角度来看“学生学会了什么”，可以分成知识与技能、过程与方法、情感态度价值观三维目标。我们不能将一节课的目标分别写成“知识与技能目标”、“过程与方法目标”、“情感态度价值观目标”，而应该将两维或三维结合在一起陈述，这样陈述就兼顾了“过程与方法目标+知识与技能目标+情感态度价值观目标”三个维度。同时，也解决了将“情感态度价值观”单独写成一条目标所带来的“无法评价”或“有直接教情感之嫌”的问题。

　　教师应如何确定并叙写目标

　　建构课程的第一要务就是必须将“学生学会了什么”清晰化，确定清晰的目标是为了评价，即陈述目标就是为评价服务的，不能评价的目标就不用叙写。但实际上目标只是教育结果中可评价的那一部分，并不是教育结果的全部。这就是课程思维的局限性，也是“教育”走向科学化而成课程后必须付出的代价。

　　教师将如何清晰地陈述“学生学会了什么”？应以“三类”目标定位，以“三阶”目标立意，以“三维”目标叙写。

　　从抽象到具体，目标有教育目的、学科目标与教学目标三层。作为教师，陈述目标就是将学科目标具体化为学期目标，再具体化为单元目标、主题目标、课时目标，以便开展形成性评价或终结性评价。当教师在确定学期、单元、主题或课时的目标时，首先需要厘清“什么是值得学习的知识与技能”，然后追问：以三类目标定位，即该知识或技能的学习结果侧重哪一类目标？以三阶目标立意，即该知识或技能对学生来说有何意义或价值？这样的意义或价值需要经历什么样的过程与方法（即怎样学习的问题）？以三维目标叙写，即结合具体的教学情境与学生，如何以三维目标为参照、逐条叙写该知识或技能的全部学习目标？所叙写的目标一般要包含四个要素：行为主体、行为表现、行为条件和表现程度，并且任何目标都必须以清晰、可评价为前提。

　　教师必须从追问或澄清“学生学会了什么”开始自己的课程教学，并在此过程中实现自己的专业发展。（作者系华东师范大学课程与教学研究所教授兼所长）

专家学者诠释：教育改革时代下的学业测量评价

作者：杨向东贾玲周文胜　　来源：中国教育新闻网—中国教育报

　　考试是我们最不陌生的事，但却是让人又爱又恨的事。以考试成绩论成败，考试结果用于排名、甄别与选拔，加剧了学生的课业负担，导致了整个教育的应试倾向。我们常说，素质教育不是不要考试，素质教育与考试并不是矛盾的事情。那么，素质教育下的考试与传统的以分数作为唯一成败标准的考试应该是有所不同的。

　　前不久，在教育部人文社科重点研究基地华东师范大学课程与教学研究所召开的“教育改革时代下的学业测量与评价”国际研讨会上，来自国内外的专家、学者及实践者，从不同的视角给考试这个古老的话题带来了前沿的现代诠释。目前，学业测评对许多教育工作者来说，认识上仍然相对传统与陈旧。

　　为此，本刊策划了学业测评的系列主题，希望这些主题能让读者对学业测评的新视角有所了解，也希望通过这些主题，让所有教育工作者以新的视角思考和理解教育。有关教育研究者、管理者及一线教师，如果对这一系列主题有研究、有想法、有实践，欢迎形成文稿与读者共享，文稿请发至jybjiaoxue@vip.sina.com，主题注明“学业测评”字样。 ——编者

　　【专家】

学业测评还需深入思考

　　■杨向东

　　为什么一张小小试卷牵动着那么多人的心弦？从中、高考背后亿万家庭辛劳的付出，到异地高考引发的激烈辩论；从屡禁不止的课业负担，到愈演愈烈的奥数热、校外辅导热，我们的学业测评承载了多少公众对教育改革的殷切期望？我们究竟需要怎样的学业测评？与理想相比，当前的学业测评究竟存在哪些问题？只有越来越多的教育工作者、专家学者和社会公众深入思考和正确认识这些问题，积极关注和参与到当前的教育改革浪潮中来，提升教育质量、办人民满意的教育才真正有希望实现。

　　学业测评的内涵

　　简单地讲，学业测评也就是通常理解的考试。考试形式可以多种多样，不一定局限于常见的纸笔考试。不管什么形式，所有的学业测评都必须回答三个基本问题：考什么、怎么考以及如何合理使用考试结果。不过，这看似简单的三个问题其实异常复杂，每个问题背后都涉及到一系列的理论、技术或现实问题。

　　学业测评究竟应该评些什么？是考查背诵课文，还是考查阅读理解？是检验能否回忆各种概念或原理，还是检验会不会积极思考，灵活运用所学知识解决现实问题？是只关注学科学习成绩，还是更关注通过学科学习，有没有形成勇于尝试、善于创新、坚韧负责、易于合作的素质？考什么的背后实际是培养什么样人的问题，是我们秉承怎样的教育观和学习观的问题。在地球越来越“平”、信息潮涌而至、技术瞬息万变的时代，我们的孩子需要学点什么才不会被未来社会淘汰？国家和民族才能屹立于世界民族之林？显然，拥有更多的“鱼”不是最好的答案，成为优秀的“渔者”似乎更为重要。当我们激烈辩论高考应该全国统一还是地方自主、是一年一考还是一年多考的同时，似乎更应该讨论高考应该考些什么。当孩子们年复一年、日复一日，为了完成大量作业、练习、月考、统考而过早近视的时候，我们似乎更应该反思我们这样做究竟值不值得。

　　科学合理的学业测评能够帮助我们了解我们的孩子究竟学到些什么，学得怎么样。就像我们需要各种精准的测量仪器一样，我们也需要科学公正的学业测评工具。严格的保密制度、规范的考试流程、周密的批阅方式固然重要，但学业测评工具本身的质量如何，似乎更为关键。我们是否真正理解什么是数学思维？什么是科学创新？怎样的测试题目或考试方式才能准确公正地测出学生在这些有价值素养上的水平？即便是纸笔考试可以合理测评的东西，如何科学地命题和组卷也需要深入研究。举个简单的例子，如果高考作文命题涉及到了网络上当前流行的话题，对于偏远山区的学生而言就是不公平的。这样的作文考查的就不是单纯的作文水平，还有能否接触到网络的机会。因此，怎么考的背后是学业测评领域科研水平的问题。当我们感慨国际上学业测评工具质量如何高的同时，也应该看到这些工具背后长期深入、系统严谨的科研支撑。

　　考试结果究竟如何使用？这既有学术性问题，也有社会性问题。任何测量都有误差，学业测评也是如此。在基于考试结果对学生进行推断和决策时，必须要做到证据充分、科学合理。此外，我们为什么需要考试？它是国家权力的象征，还是教育行政或管理部门管理的杀手锏？我们用考试结果来选拔排序、问责奖惩，还是用它来诊断补救、促进公平？当发现外来务工人员子女学业成绩明显低于其他学生的时候，是帮助他们，还是将他们排除在门外？是用考试结果作为布置更多机械重复作业的理由，还是从中获取学生学习问题或不足的信息，从而提供有针对性的指导？这些问题，既受特定考试类型和设计理念的影响，也受国家政治制度和文化传统的制约，还取决于使用者的社会价值观和学业测评素养。

　　我国学业测评存在的问题

　　过去十年，我国基础教育的改革和发展成绩斐然。无论是教育理念、课程设置，还是学校文化和课堂实践，都发生了翻天覆地的变化。在考试评价领域，国家积极探索建立高考、学业水平考试和综合素质评价相结合的学业测评体系。但是，我国的学业测评仍然存在许多问题。

　　第一，现有学业测评滞后于基础教育改革所提倡的基本理念。基础教育改革提倡促进学生个性发展，强调自主、合作、探究，鼓励学生运用所学创造性地解决现实问题。然而，这些理念尚未真正落实到现实的考试中。综合素质评价虽然是一种有益的尝试，但存在一系列的理论和技术问题。现有学业测评仍然拘泥于学科知识的习得，强调零散知识点和孤立技能的掌握。

　　第二，受文化传统、社会、经济等因素的影响，我国现有学业测评仍然以选拔、排序和管理为主要功能，服务于学生学习和教学改进的功能远没有得到充分发展。我国现有学业测评体系中，利剑高悬的中、高考和服务于各级教育管理部门的周考、月考、期中考、期末考占据了绝对主导地位。学生、教师和学校在这种选拔和问责的测评制度中疲于应付，鲜有自由可言。受这种测评制度影响，教师热衷于分析讲解各种考试试题，让学生进行大量机械重复的操练。为了能够在考试中胜出，教学进度一赶再赶，教学内容不断加深，课业负担难减轻。即便教师不想如此，望子成龙的家长们也会将孩子送到各种各样的补习班、辅导班。广大一线教师慑于现实压力，不敢全身心投入到教育改革的时代浪潮之中。

　　第三，现有学业测评在科学化和专业化程度上有待进一步提高。对我国许多教育行政和管理部门而言，考试科目、内容、方式和时间，考试结果如何处理，仍然是行政管理的议题。即便是考查学科知识的习得，当前学业测评在评价框架的制定、命题质量、测验编制、结果分析和运用等方面都存在缺乏研究或研究不够深入的问题，学业测评的经验色彩依然很浓。测评质量不稳定、对考试分数错误理解和运用，仍然是我国当前学业测评领域存在的突出问题。 (资料提供：学院科研处)

分享到：