今天是:

您的位置:首页 > 学科 > 高中生物 > 教学研究 >

浅谈标准参照与常模参照相结合的高中学业水平考试设计方法

作者:  发表时间:2019-07-10 09:36:28  单位:  访问次数:      

 

编者按:完善普通高中学业水平考试是高考综合改革的关键环节,有助于教育评价体系的科学构建。与全国统一高考功能定位不同,新高考中的普通高中学业水平考试具有多功能取向。我国在选拔性考试方面已有成熟经验,而在基于标准的学业水平考试方面还没有适合我国国情的理论与技术,仍有一系列问题急需从理论和实践方面加强研究与探索。教育部考试中心韩家勋研究员、刘昕研究员指导有关课题团队,运用现代测量理论与统计技术,客观分析高考综合改革试点地区的高中学业水平考试,基于新高考赋予学业水平考试的双重测量属性,比较借鉴国际知名测评项目,着眼于构建基于标准的多维考试评价体系,邀请一线教师深度参与,在“考什么,怎么考”等方面开展实证研究,探索适合我国国情的测量模型与实施路径,现已取得阶段性研究成果。本刊以专题形式陆续刊发其中的成果,以期为相关研究和实践提供一些启发与参考。

 

摘要:高中学业水平考试在我国的新一轮高考改革中被赋予鉴定和选拔双重功能,其考试设计要结合常模与标准综合考虑,采用混合式设计。常模、课程标准和考试评价标准三者之间的闭环关系是混合式考试设计的基础。混合式考试设计的命题组卷,可以借助建构图和怀特图建立考试标准与试题内容、考生能力和试题难度之间的关系,从而为提高命题质量提供参考。混合式考试设计的成绩报告,既要提供常模参照信息,即选择合适的分数转换方法直观地显示考生在群体中的相对位置;又要提供标准参照信息,即考生能力所处的等级。划分学生能力等级时,可以使用书签法(bookmark method)。

 

关键词:高考;高中学业水平考试;标准参照;常模参照

 

  教育者们常常依据功能把考试分为形成性(formative assessment)和终结性(summative assessment)2类。形成性测试为教师和学生提供阶段性的学习情况反馈,帮助学生了解自己的长处和短板,使学生能在下一阶段的学习中扬长避短,取得更好的学习成果;因此,这一类考试大多是标准参照(criterion-referenced)的,即在试题内容选择、难度分布、结果报告等方面,都是参照某个课程标准或考核标准来设计。终结性测试往往需要为决策者提供简明易懂的信息,方便他们基于考试结果作出与资源分配相关的决定,例如学校决定是否录取学生、教育部门决定是否需要为相对薄弱的学校或地区提供更多资源等;由于资源总是有限的,因此终结性测试通常采用常模参照(norm-referenced)的设计思路,即在考查的内容选择和试题的难度分布上不一定要与相关标准完全一致,而是要力求区分出一定比例的学生或学校,进行资源分配,这类考试的成绩报告不强调学生是否达到某一能力等级,而是着重体现考生在群体中的排名。

 

  研究者们对于这2类考试的区别和各自的优劣已经有很充分的讨论,但以往的研究容易让人们把形成性测试与终结性测试、标准参照测试与常模参照测试,误解为非黑即白的两大对立阵营。实际上,很多考试都是两者结合的产物,例如PISA就既有能力等级划分,又对参与国家和地区进行排名;再比如美国ACT考试,虽然成绩主要用来为大学录取提供信息,但在命题中主要依据高中课程标准和大学准备标准(college readiness benchmark)。

 

  近年来,教育工作者们不断强调考试对教学的反馈作用,越来越多传统的终结性考试都开始在设计中结合标准参照和常模参照2种方法。我国高中学业水平考试在新一轮高考综合改革中被赋予了双重使命。《教育部关于普通高中学业水平考试的实施意见》明确规定:“学业水平考试是根据国家普通高中课程标准和教育考试规定,由省级教育行政部门组织实施的考试,主要衡量学生达到国家规定学习要求的程度,是保障教育教学质量的一项重要制度。考试成绩是学生毕业和升学的重要依据。”因此,高中学业水平考试既要评价学生是否达成了高中的学习目标,同时又作为高考的一部分,承担一定的选拔功能。高中学业水平考试要实现双重功能,其设计必须结合标准和常模。

  尽管在实践中已经有不少考试混合使用了标准参照和常模参照的方法,但很少有研究关注两者究竟应该如何结合才更科学。如果考试设计者不阐释清楚两者结合的理论框架和具体方法,考试设计中的主观性和随意性就较难控制,可能导致各次考试之间缺乏连贯性和一致性,考试结果不易解读,难以成为科学决策的依据。因此,本文试图探讨标准参照与常模参照相结合的考试设计思路及方法,为考试设计者和研究者们提供参考。

 

1 理论基础

 

  高中学业水平考试设计要结合标准和常模,首先需要厘清标准与常模之间的关系。标准主要包括课程标准和考试评价标准,常模是考试所针对的学生群体的水平分布情况。图1展示了常模、课程标准与考试评价标准三者之间一种理想的闭环关系。

8e1e6a10dc3e450985e31d078660315a.Png

  第一,课程标准体现学生能力常模是“混合式”考试设计的必要条件。课程标准中对相关知识和能力等掌握程度的描述,看起来似乎与学生能力常模没有直接关系,因此课程标准与常模的关系很容易被忽略;但实际上,课程标准往往隐含了常模。理想状况下,最低标准对应大部分学生都能达成的学习目标,最高标准则只有少数学生才能达成。倘若标准设得太低,大部分学生都能达到最高标准,就会造成能力等级的“通膨”;如果标准设得太高,大部分学生都达不到,会对学生的自信心、学习兴趣等造成负面影响。在标准太高或太低时,标准参照考试对教学的反馈作用都十分有限,只有结合常模制定的课程标准对教学和考试才有指导意义。2018年颁布的课程标准凝练了各个学科的核心素养,明确了学生完成本学科学习任务后应该达到的水平,为高中学业水平考试的设计提供了重要依据。

  第二,课程标准无法直接用来指导考试设计,依据课程标准制定考试评价标准是“混合式”考试设计的关键环节。新课标提出的学科核心素养整合了知识与技能、过程与方法、情感态度与价值观3方面的学习目标,是对关键能力、必备品格和正确价值观的高度概括,也是考试评价设计的指导性文件,但不能直接用于考试的命题、组卷、设定各等级分数线等工作。考试设计者需要和学科专家一起,依据课程标准,制定内容覆盖全面、难度合理的考试评价标准。考试标准不是课程标准的简单扩展,而是教师在教学过程中理解课程标准、教学内容和评价标准之间的关系,把握广度和难度的重要依据。因此,高中学业水平考试标准必须全面覆盖教学内容,保证学科核心素养的整体性;同时考试标准需要依据课程标准中的学业质量水平描述,详细规定各部分内容的考核难度,避免教师在教学与备考中的盲目性。基于课程标准,翔实科学的考试标准是保障“混合式”考试设计科学性的核心,也是发挥考试“指挥棒”积极作用的关键。

  第三,“混合式”考试所提供的学生能力常模可以为课程标准、考试评价标准的修订提供信息,形成常模、标准和考试之间的良性循环,保障“混合式”考试的时效性。如果一段时间内考试评价标准保持基本稳定,考试的内容和难度结构都保持相对稳定,那么考试结果所形成的考生能力常模就具有一定的跨年度可比性,可以作为进一步修改课程标准的依据。如果学生整体能力提升,专家就可以适时调整课程标准,提出更高的学习目标,“混合式”考试也可以相应调整难度,以保证考试的适用性。

  总之,如果课程标准偏离常模,我们就难以在命题组卷时做到两者兼顾,考试结果自然也就不可能同时用来排序和反馈教学;如果考试标准偏离课程标准,考试结果也无法科学地评估教学质量。因此,只有在学生能力常模、课程标准、考试评价标准形成闭环关系时,“混合式”的考试设计才能发挥较强的优势,实现考试多重功能。目前,我国已发布最新修订的高中课程标准,尚需制定对应的考试评价标准。

 

考试设计

2.1 命题组卷的依据

  “混合式”设计的考试对命题组卷的要求与单一的标准参照或常模参照的考试有所不同。从内容覆盖上来说,标准参照的考试要求全面地反映课程标准,在命题时不同内容的分值比重体现相关学习内容在教材中的比重,而常模参照的考试则不一定。从难度分布上来说,标准参照的考试只需要划分有限的几个等级,并不控制成绩的分布范围,因此难度有可能集中在某一小段区间内;但常模参照的考试则强调区分不同能力水平的考生,提供更精准的排名,因此有可能需要一定数量的“非常规”试题。“混合式”设计的考试需要兼顾内容的代表性和难度的合理性,以控制成绩的整体分布,这对命题人员来说是更大的挑战。

  为此,本文提出借助“建构图”来说明考试标准与试题内容的关联性,以及考试内容广度与难度的平衡。“建构”是指要测量的潜在能力的连续变量,如高中学生某一学科的核心素养的习得情况。建构图是把某一建构进行可视化,如图2。

5d8ef1099d4045a9ad46fb7bde50aeb7.Png

  图2展示了通用的建构图的形式,“X”为所测量的建构,带双向箭头的直线从下到上表示的是这一建构的水平由低到高。图的左半部分是对不同质性水平被试组的描述,在高中学业水平考试的设计中,对应的是学业质量水平各个等级的描述,即能力处于这一等级的学生已经掌握了哪些知识和能力,还有哪些尚需继续学习。图的右半部分表示不同能力水平的考生在回答相关问题时典型的表现。对建构图右半部分的思考也就是对命题的初步思考:通过设计什么样的问题才可以观察到考生的这些典型表现呢?尽管考生能力的质性水平只是对应课程标准中学业质量有限的几个等级,但考生的能力却是连续变量,因此命题者在思考建构图右半部分的学生典型表现时,可以不断细化,尽可能在考生能力分布的整个区域都找到典型表现的例子。在此基础上进行命题,便于命题人员更好地把握整体难度和难度的分布,最终能够更精准地确定考生在能力轴上所处的位置。

  我国已有一些运用建构图设计量表的尝试。此外,很多考试的结构都比较复杂,很难用一个建构图来表达。例如,PISA的科学素养测试包括3种核心素养:科学地解释现象、设计和评估研究方法、科学地解读数据和论据;在内容上包含物理、生物、地球与太空的学科知识、研究方法和元认知;除测量知识和能力外,还测量学生对于科学的态度,包括对科学的学习兴趣、环境保护意识和对科学探索的价值认同。在PISA的命题中,除了考虑难度的分布外,还要考虑试题背景的平衡,既有基于学生个人生活经验的试题,又有基于地区大环境以及全球背景下的试题。PISA科学素养的测试框架对上述每一个元素都进行了详细分解,再整合成一个复杂的“多维细目表”。因此,在设计高中学业水平考试时,可以学习和借鉴PISA的这种做法。

  除了使用建构图外,还可以使用项目反应理论模型进行数据的分析,并绘制与建构图相对应的怀特图,通过实证数据来检验试题难度分布是否符合命题专家的预期,是否科学合理。在过去的几十年中,我国教育考试的研究者们虽然对项目反应理论有了深入的探讨,但对怀特图的应用却仍然很少,图3是一个怀特图的例子。

d4cb05a6ae3c41ba8df5958917ba36de.Png

  怀特图左半边是考生的能力分布,右半边是试题难度的分布,考生能力和试题难度都是由项目反应理论模型估算出的。怀特图可以表示试题与考生之间的定性关系和大致的概率关系,例如,能力估值为1的考生有50%的概率答对难度为1的试题(图3中第24~29题),但在经典测量理论中,试题的答对率或区分度是无法直接与某个得分的考生建立联系的。使用项目反应理论模型,可比较准确地评价学生个体的能力,使用怀特图可以直观地显示出试题难度分布与考生能力分布是否匹配。当考试用于选拔目的时,需要提供符合考生群体常模参照的成绩报告,在整个能力区间都需要有一定数量的试题,命题专家可以根据怀特图进行反思,提高对试题难度预估的准确性,提升试卷质量。

2.2 成绩报告的呈现形式  

  成绩报告是体现“混合式”考试设计优势的另一个重要方面。“混合式”考试设计的成绩报告既提供常模参照信息,即考生在群体中的相对位置;还提供标准参照信息,即考生所处的能力等级,用来促进教学。

  提供常模参照信息的方法有很多,如原始分、标准分、百分位排名,以及用项目反应理论模型估值再进行换算后的得分等,这些分数都是连续变量,但其含义却有一些区别。原始分是目前我国学生和家长最能理解和接受的,可以用来对考生进行排序或两两比较,但分值本身并不能显示出考生在群体中的位置,也无法控制整体的成绩分布。标准分和百分位排名则可以提供考生在群体中的相对位置、调整成绩分布,但是考生成绩和卷面答题情况的直接联系没有呈现,因此导致部分学生和家长难以接受。国际上有一些考试采用了更复杂的分值计算方法,例如PISA是将由项目反应模型估算出的量表分转换成平均分是500、标准差是100的标准分,从而可以保证2/3左右的考生成绩在400~600分之间,在解读成绩时,每个参与的国家和地区比较容易判断自己是否高于平均、大致处于什么位置等。因此,提供哪种成绩报告,可以依据考试的传统、参加考试的人数和排序的目的等情况,选择最合适的方法。

  此外,国际上很多考试会向成绩的使用者报告测量误差。测量误差的信息对于考试成绩的使用者正确理解和科学使用成绩有重要的作用,如PISA的成绩报告中就包括95%置信区间,举例来说,某个地区学生平均成绩排名如果是第5名的话,其真实能力的排名应该在第3至第7名之间。

  “混合式”的成绩报告还需要包括标准参照的信息,即考生能力所处的等级。把考试成绩这一连续变量划分成若干等级有多种方法,最简单的做法就是按照传统和经验,直接设定分数线,例如在总分为100分的考试中,达到60分为及格,低于60分为不及格。此外,也可以依据常模来划分等级,如前10%为优秀,前30%为良好等。上述2种做法都没有把等级与标准联系起来,无法对教学提供有价值的反馈,也无法准确评价学生个体的能力水平,因此在“混合式”的成绩报告中都不可取。要提供标准参照的信息,就需要依据课程标准、考试标准来划分等级,成绩报告中的学生能力等级与这些标准直接对应,即包含了对考生已经掌握和尚未掌握的知识和能力等的总结。

  设定等级的方法(standard setting)有几十种,如Angoff法、书签法(bookmark method)等。目前,国际上最常用的是书签法,大致步骤是:

  1)运用项目反应模型分析考生作答数据,计算出每一道试题的难度;

  2)将试题从易到难排序,做成一本试题册;

  3)对学科专家培训,让他们了解试题册,并对如何理解课程标准和考试标准中对不同能力等级的描述达成一致意见;

  4)将专家分成几个小组,每个小组再深入地就每道题考查什么样的能力进行讨论,讨论结束后,每位专家独立在他/她认为是等级分界线的地方夹入“书签”;

  5)根据“书签”的位置,计算每一组的平均分数线;再将计算结果以及最高、最低分数线等信息提供给专家,让专家进行第二轮讨论;讨论结束后,各自独立调整“书签”的位置;

  6)依据所有专家的“书签”位置,计算平均分数线;将计算结果以及按照这个分数线划分等级后每个等级的考生人数比例等信息提供给专家;专家进行集体讨论,最后确定各个等级的分数线。

  在专家讨论和夹入“书签”的过程中,前述介绍的建构图和怀特图可以为学科专家提供有价值的辅助信息。专家在设定分数线时,也可能会提出不少对教学有用的反馈意见和进一步修改课程标准、考试标准的有价值的建议。

  最后,在报告常模参照分数时,为了便于排序,往往只提供一个数值;但在报告标准参照的等级时,则不一定要合成一个等级,可以分别报告各部分的成绩,为学校、教师和学生提供更详细的信息。当然,这对命题组卷过程中,如何处理各个部分的关系提出了更高的要求。

 

结束语

  常模参照和标准参照的方法在考试设计中不仅不矛盾,而且是可以兼容、甚至互补的;但两者的结合并不是随意的,而是需要满足一定的前提条件,在命题组卷、成绩报告等环节都需要有特别的考量。国际上已经有不少考试采用“混合式”设计,为我们的考试改革提供了很多可借鉴的经验。

  从高中学业水平考试改革的目标来说,要实现鉴定和选拔的双重功能,就必须采用常模参照和标准参照相结合的“混合式”设计。从实际情况来说,高中学业水平考试的考生人数较多、能力水平相对稳定,课程标准刚刚完成新一轮的修订,在一段时间内也将保持稳定,因此常模参照和标准参照相结合的混合式设计是最理想的,但目前的问题是我国尚缺乏体现“混合式”设计的考试评价标准。

  在设计常模参照与标准参照相结合的高中学业水平考试时,很多环节都需要学科专家、任课教师的深度参与。只有他们的参与,才能建立起课程标准、考试评价标准和教学内容之间的联系,从而不断完善课程标准,修订考试标准,降低片面应试对学生学习的影响。此外,只有科学理解和正确使用测评结果,才能构建科学的教育评价体系。

 

 

 

作者:

黄晓婷,香港考试及评核局,考试评核及研究总监;
韩家勋,教育部考试中心,研究员。