查看原文
其他

“来“读书第七期 | 美国教育考试服务中心(ETS)在教育和心理测量领域的贡献

林敦来 外研测评 2022-04-24

本期主笔

林敦来

林敦来,现任北京师范大学外国语言文学学院副教授,硕士生导师,2007年起就职于北京师范大学外文学院公外部,现担任公外部主任。研究方向为语言测试与评价及大学英语教学,主持国家社会科学基金一项,参与教育部基础教育质量监测中心及中国基础教育监测协同创新中心英语学科工作。目前已出版专著三部,参与编写大学英语教材多部。




美国教育考试服务中心(Educational Testing Service)成立于1947年。它有双重使命:其一,提供高品质的测试项目,促进教学决策;其二,通过研究来改进教育测试的理论和实践。由Randy E. Bennett和Matthias von Davie主编的Advancing Human Assessment: The Methodological, Psychological and Policy Contributions of ETS 一书综述了 ETS 在教育和心理测量领域的贡献,全书分为四大部分,聚焦 ETS 在教育测量分析性工具的开发、教育政策、科学心理学研究和效度研究方面的贡献。

本期“来”读书,笔者选择效度研究模块中的章节(第16章)加以介绍,该章由 ETS 的 Michael Kane及同事介绍 ETS 在效度理论和实践研究的贡献。


Kelley(1927)指出,广义上对效度的看法源于对分数意义的准确性和分数使用的适切性的关注。随着测试分数使用更广,预设的分数解释逐步扩展,测试方法更为高端,效度的概念自然也会发生变化。1951年的《教育测量》(第一版),Cureton 指出“测试效度的基本问题是测试在多大程度上实现了其预设功能”,效度包含两个方面“相关度和信度”。此阶段测试分数解释重点在于考生特质和对未来表现的预测。ETS在初始阶段仅仅是运用当时的效度理论,后来在实践过程中逐步发展出效度验证框架和相关的方法。本文从特质解释、预测、构念解释、公平性、Messick 整体模型、测试后效模型、基于论证的效度验证模型等方面论述ETS效度理论和实践研究的发展历程。在理论方面的研究可以大体根据时间顺序分为五个阶段。这五个阶段体现 ETS 对效度理论研究的不断深化,同时读者也应该注意到,一种理论的兴起不意味着上一种理论的消亡。常常是多种效度理论共存。


第一

阶段

第一个阶段为基于特质的解释的有效性。

特质被界定为“应对某种任务时的表现倾向(dispositions)”。它与更加偏重理论的构念(construct)之间有重叠的部分。

特质有三个特证:

(1)它们由比较具体的表现域或行为域来界定;

(2)表现或行为被认为能反映个体的一些特征,但是这些特征的性质没有被细化,因此,特质的解释很大程度上依赖于域界定。

(3)特质被认为是个体稳定的特征,有些容易变(如学科知识),有些不容易变化(如学能)。

现代测试理论的发展源于对个体特质的描述,所有的心理测量理论(包括经典测试理论、概化理论、因子分析和项目反应理论)均包含对一种或多种特质的估计。


ETS 在特质效度理论中的贡献包含经典测试理论(如信度理论、标准误、置信区间等)、项目反应理论、等值、因子分析、制标(scaling)以及控制与特质不相关的差异的方法。


在经典测试理论方面,ETS 的特殊贡献是提出条件性标准误以及与之相关的真分数估计左右的置信区间。如果采用比较保守的置信区间(如99%),对被试所做的分数决策就更加有信心。信度分析和子分数相关性分析为单独报告子分数提供了理据。为了解决多题本之间在内容和难度上的差异,ETS 运用了等值。这个阶段 ETS 的Frederick Lord 和 Melvin Novick 出版了 Statistical Theories of Mental Test Scores 一书,对经典测试理论的做了更加精细的探讨。 ETS 对特质的充足取样也做出了重大贡献。比如对定量推理(quantitative reasoning)做了详细的界定,包含6个方面:理解以各种形式呈现的定量信息;对定量信息进行解释和推理;解决新的定量问题;检验结果的合理性;传达定量信息;认识定量方法的局限性。比如提出了矩阵取样方法,不同的任务由不同的被试子群完成,这就能让特定的测试时间单位内更多的内容被覆盖到。该方法被美国国家教育进步监测(NAEP)所采用。因子分析方面,ETS的更大贡献在于采用了验证性因子分析,它超越了简单的特质解释,到达基于理论的构念解释层面,与 Cronbach 和 Meehl(1955)在内涵和形式上相通。控制与特质不相关的差异方面,ETS对一些潜在的不相关因素做了大量研究,如焦虑、应答风格、培训、定向思维威胁。Messick 将构念不相关差异和构念代表不足差异作为他统一效度理论的核心因素。ETS还通过项目功能差异(DIF)控制系统性的差异。


第二

阶段

第二阶段:基于分数的预测效度。

ETS 早期的研究专注于效标关联效度(包括共时效度和预测效度),到今天这种效度证据依然很有意义,但是要在更大的理论框架下评估,也应从更广的视角下评估。


第三

阶段

第三阶段:效度与公平性。

ETS 采用了意义越来越广泛的公平性和偏颇概念,不仅关注了个体被试的统一待遇,而且他们关注个体和群体公平待遇这个更具概括意义的话题。过去65年以来,ETS 一直关注研究公平性和偏颇,以及如何降低偏颇来促进公平性。ETS 在引进 DIF 来促进测试项目的公平性中起到重要的作用。感兴趣的读者可以查阅 Zieky(2011)中关于 DIF 的来龙去脉。


第四

阶段

第四阶段:Messick 的构念效度整体模型

基于测试分数的意义以及分数背后的价值观和后果这样一种广义观点,Messick 将效度理论中分散的效度理论整合成连贯的框架,并给予分数使用后果以突出的角色。Messick 关注的问题可以总结为:测试是否很好地测量了欲测的特质或构念?测试分数如何恰当地使用?他强调关注测试应答的信度和构念效度。Messick 还关注测试的伦理问题。Messick(1975)在“The standard problem: Meaning and values in measurement and evaluation”一文中论述了5个重要问题:

(1)效度验证过程中基于构念的推理和分析的核心地位;

(2)排除其他解释的重要性;

(3)要精确表达预设分数解释;

(4)后果的重要性;

(5)效度验证中与内容相关的证据的作用。Messick(1989)对他的整体效度观做了充分的论述。

其中的核心信息归纳如下:

(1)效度是整体的概念,它是对基于测试分数的证据和理据在多大程度上支持推断和行为的“整合的评价性的判断”。不能切分为“某种”效度。

(2)所有的效度都是构念效度。

(3)效度验证是科学探究行为。

(4)效度和科学受到价值观的影响。

(5)效度包含对测试分数使用的社会后果的评估。


 Messick(1989)的整体效度框架


第五

阶段

第五阶段:基于论证的效度验证。

Kane(1992,2006)认为预设的分数解释和分数使用可以用解释性论证来具体说明。加入 ETS 后,Kane(2013)将基于论证的框架扩展,关注解释/使用论证(IUA),它是一系列从被试在任务或题目中的观测到的表现而获得的推断和支持假设到基于测试分数的解释性主张和决策的过程。比起 Messcik 的框架,它较少关注哲学基础和意义与价值观之间的关系,但它更关注 IUA,验证的是预设分数解释和使用,不是测试或分数本身。效度验证局限于预设的测试分数的解释和使用主张,使得效度验证更加具有可操作性。


除了上文中提到 ETS 在效度理论方面的贡献,在效度实践方面 ETS 也做出无数巨大贡献。首先,在 ETS 历史上,对预测效度的研究实践永不停止。对与构念不相关的因素的也是 ETS 效度实践关注的内容,如劳累因素、时限因素、猜测因素和评分误差因素。此外,对构念代表不足的研究也是 ETS 效度实践的重要方面。ETS 还对公平性给予密切关注。


在结论部分,两位作者认为 Messick 塑造了二十世纪最后25年的效度理论,二十一世纪的效度理论探讨是对 Messick 基于构念框架的整体效度观的传承,以便更加直观地解释测试,帮助实现个人的、教育的和社会的目标。


参考文献

Kane, M. (1992). An argument-based approach to validation. Psychological Bulletin, 112, 527–535.

Kane, M. (2006). Validation. In R. Brennan (Ed.), Educational Measurement (4th ed., pp. 17–64). Westport: American Council on Education and Praeger.

Kane, M. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50, 1–73. https://doi.org/10.1111/jedm.12000

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational Measurement (3rd ed., pp. 13–103). New York: Macmillan.



推荐阅读

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302.

Kane, M. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50, 1–73. https://doi.org/10.1111/jedm.12000

Lord, F. M., & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading: Addison-Wesley.

Zieky, M. (2011). The origins of procedures for using differential item functioning statistics at Educational Testing Service. In N. Dorans & S. Sinharay (Eds.), Looking Back: Proceedings of A Conference in Honor of Paul Holland (pp. 115–127). New York: Springer.

掌握一手测评讯息

学习最新测评手段

长按关注外研测评

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存