导读考试是一门科学,有其本身的学理根底。在考试越来越具有高好坏的社会布景下,加强考试科学常识的遍及应当成为一种职责。为此,撰写了考试的丈量学根底常识,包含经典丈量理论、项目反响理论、认知确诊理论、概化理论、难度、区分度、信度、效度、等值、标定等内容。经典丈量理论(ClassicalTestingTheo...
考试是一门科学,有其本身的学理根底。在考试越来越具有高好坏的社会布景下,加强考试科学常识的遍及应当成为一种职责。为此,撰写了考试的丈量学根底常识,包含经典丈量理论、项目反响理论、认知确诊理论、概化理论、难度、区分度、信度、效度、等值、标定等内容。
经典丈量理论(Classical Testing Theory,CTT)是历史上呈现时刻最早、开展时刻最长、对实践工作影响广泛、人们也最为了解的一种心思丈量学理论。1950年,美国学者Gulliksen《心思检验的理论》一书的出书,标志着CTT的老练。
依据CTT理论,丈量成果不或许是彻底没有差错的真值,而只能取得包含丈量差错在内的观测分数。因而CTT假定,观测分数与真分数之间是一种线性联系,观测分数(X)是真分数(T)与差错(E)之和,然后形成了CTT的模型:X=T+E,如小明某次数学考试卷面得了80分,80分即为观测分数。
因为公式中存在两个不知道变量,因而这个公式是无法解的,除非做出一些简略的假定。CTT的假定是:(1)丈量差错是随机的,并遵守均值为零的正态分布;(2)被试全体的差错均值为零;(3)平行检验的差错分数不相关。
经典丈量理论在真分数假定的柱石上构建起了它的理论大厦,首要包含信度、效度、项目剖析、常模、规范化等。依据CTT的结构编制和施测心思检验时,最重要的使命便是在检验的各个环节上,经过各种办法和技术尽量减小检验差错,以进步检验的可靠性,即信度(reliability)。
经典丈量理论因为模型简略、深入浅出,在心思与教育丈量范畴使用规模较为广泛,且奉献巨大。其缺乏首要在于:(1)计算量的样本依赖性,效度、信度、难度、区分度等参数的估量对样本的依赖性很大,有必要着重样本对全体的代表性。(2)丈量分数的检验依赖性,因为很难树立“平行试卷”,丈量相同才干的两个不同检验上的分数可比性差。(3)信度估量的不准确性,CTT假定对不同才干水平的被试来说,丈量差错是相同的,但事实上一份检验只要在施测于才干水平与检验难度适当的被试时才简单取得比较高的丈量精度。
项目反响理论(Item Response Theory,IRT)的根本思想起源于20世纪30年代末和40年代初。美国心思丈量学家洛德(Lord)于1952年在其博士论文中初次提出项目反响模型,即双参数正态卵形模型,标志着IRT的正式诞生。1957年和1958年,美国数理计算学家伯恩鲍姆(Birnbaum)用数学上更简单处理的逻辑斯蒂曲线替代了Lord的正态卵形曲线。丹麦数学家和计算学家拉什(Georg Rasch)在1960年提出闻名的单参数模型——Rasch模型,之后他的学生Wright将Rasch模型使用推行,推进IRT在开展方向上走出了别的一条路。20世纪70和80年代,项目反响理论迅猛开展,像组卷、项目功用差异(DIF)、标定、等值,以及规范设定和检验计分、自适应考试等越来越离不开IRT。
项目反响理论树立在2个根本概念上:1)考生在某一检验试题上的体现景象,可由一组因从来加以猜测或解说,这组要素叫做潜在特质或才干;2)考生的体现景象与这组潜在特质间的联系,可经过一条接连递加函数来加以诊释,这个函数便叫做项目特征曲线(Item Characteristic Curve,ICC)。任何一条项目特征曲线所代表的意义是:答对某一试题的概率,是由考生的才干和试题的特性所一起决议。考生的潜在特质或才干的程度越强(或越高),其在某一试题上的正确反响概率便越大。
与CTT的弱假定不同,项目反响模型被称为强假定模型,因为其条件假定十分严厉。这些假定有:1)单维性假定。即假定检验中各标题都一起丈量一种潜在特质,这种单一潜在特质包含在悉数检验标题中。被试在检验上的体现只能由一种潜在特质来解说。2)部分独立性假定。即假定受测者在检验标题上的反响只受他本身的才干水平以及标题的某些性质的影响,而不受别人或他在其他标题上的反响的影响。也便是说,包含在项目反响模型里的才干(特质)要素,才是仅有影响被试在检验标题上作出反响的要素。3)单调性。即考生对标题正确反响的概率随其才干水平的添加而单调递加。一般以为,单维性假定与部分独立性假定是等价的,部分独立性是单维性假定建立的一个必然成果。
与经典丈量理论比较,项目反响理论至少有以下几个长处:1)标题参数安稳,不受考生样本的影响,标题参数估量更为准确;2)针对每个考生供给个别差异的丈量差错方针,因而能准确计算考生的才干估量值;3)处理了检验等值问题,它既能完成被试检验总分等值,又能完成标题参数等值;4)界说了信息函数这一归纳质量方针,来鉴定某个标题或整个检验的准确性。
项目反响理论作为最重要的一个现代丈量理论,正日益频繁地使用在大型题库建造、大规范量表开发、世界点评项目及计算机化考试等范畴,在心思与教育丈量舞台上扮演着越来越重要的人物。
经典丈量理论(CCT)一向占有丈量理论的操控方位,却存在差错别离过于抽象、“严厉平行检验”很难在实践情境中完成等问题。针对经典丈量理论存在的问题,20世纪70年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory,GT)。概化理论将经典丈量理论的内容和运用规模进行了扩展和延伸。
在概化理论中,丈量情境联系由丈量方针(object of measurement)和丈量旁边面(facet of measurement)构成。丈量方针,即检验中所要描绘的特性,不只仅是受测者的某种潜在特质,也可所以检验标题或评分者的某种特性。丈量旁边面则是影响和限制丈量方针的各种要素和条件,包含丈量东西、丈量环境、丈量时刻等。丈量旁边面又可分为随机旁边面(random facet)和固定旁边面(fixed facet)。在随机旁边面中,旁边面各水平是从一切或许的水平中随机选取;固定旁边面的各水平则是固定不变的。在概化理论模型中,至少需求包含一个随机旁边面才干进行推行或概化。概化理论将经典丈量理论的信度转化为概化系数Eρ2或可靠性方针φ系数,概化系数重视的是丈量的相对差错,可靠性指数则重视的是绝对差错。
概化理论研讨进程由两部分组成,即G研讨和D研讨。G研讨是指在观测全域上,依据丈量规划对丈量方针、一切旁边面以及它们之间的交互作用的方差协方差重量进行估量。在这个研讨中,需求研讨者清晰丈量方针和丈量方针、丈量旁边面和观测全域以及它们的联系,还包含对丈量规划和丈量形式的确认。D研讨则是在G研讨根底上,经过改动丈量旁边面结构、检验模型等来调查概化系数和可靠性指数的改变,然后为有用操控差错、进步检验精度供给参阅。其间,需求依据丈量意图确认概化全域,也便是确认检验成果推行的旁边面,以及各旁边面推行的规模。依据确认的概化全域,在各旁边面条件样本水平上从头估量G研讨中各要素的效应和交互作用的方差重量,取得特定概化全域上整个检验的概化系数和可靠性指数。经过屡次重复,取得不同概化全域上的系数方针,比较这些系数的估量精度,然后确认最佳的丈量规划方案,将G研讨中的成果概化到新的全域上。
因为在实践的丈量中,常会触及一个丈量方针一起具有多个全域分数的问题,比方一个检验包含多个分检验,这些分检验的分数就可理解为同一丈量方针所具有的多个全域分数。所以在单变量概化理论的根底上开展出多元概化理论。多元概化理论在承继单变量概化理论的根底上,供给了检验方针、丈量旁边面等更为具体的方差协方差重量信息,具有更为广泛的使用规模。
认知确诊理论,依照Mislevy R.J(1993)的观念,心思与教育丈量理论开展至今,大约阅历了两个阶段:第一阶段为规范检验理论阶段(Standard Test Theory),包含经典丈量理论(Classical Testing Theory,CTT)、项目反响理论(Item Response Theory,IRT)和概化理论(Generalizability Theory,GT);第二阶段是以认知确诊(Cognitive Diagnosis)为核心内容的新一代检验理论(a New Generation of Test)。
个别所得检验总分相同或许在传统检验上的行为体现共同,并不代表他们一定有相同的心思加工进程。事实上,他们或许有不同的常识结构和处理问题的战略。一个单一而抽象的总分往往会掩盖这些不同。新一代检验理论——认知确诊则克服了这一局限性,它很好地将认知心思学的理论成果与现代的计算办法结合起来。
认知心思学的剖析不只能够清晰被试正确作答所需的技术、战略、常识根底与加工进程,还能够清晰项目特征和影响条件与作答反响的联系,然后有力地进步检验编制进程对难度等功能的预控性。而要终究完成对被试个别差异的剖析和解说,还有必要着重检验规划,即依据丈量方针的本质性心思模型来挑选、编制项目和检验,到达具体描绘被试间差异的意图。认知确诊理论把认知进程与丈量手法结合起来,不只能对考生的全体水平作出评价,一起还能够将考生的认知结构形式化,使用适宜的丈量模型对不同的认知结构形式进行确诊,然后定量地考察考生的认知结构和个别差异,为个别下一步的纠正、训练供给方向和辅导。
经典丈量理论与项目反响理论的首要意图是得出被试潜在特质的方位,首要着重被试的行为反响,而不是学习进程。认知确诊理论是树立在认知心思学根底之上的丈量,能够提醒项目反响背面的机制,也被称为是根据认知心思学的项目反响理论。