张静等 | 中国青少年社会与情感能力测评之技术报告

摘要：本技术报告基于中国苏州的测评数据,对OECD社会与情感能力测评工具在中国文化下的心理测量学特征进行分析。具体计算Alpha系数和Omega系数来检验这些量表的信度;进行了一系列验证性因子分析来检验这些量表的结构效度;开展多组验证性因子分析来评估不同组(年龄组和性别组)的测量等值性,以及使用项目反应理论广义分步计分模型来衡量项目并为所有参与测评的学生生成社会与情感能力值。

关键词：社会与情感能力;信度;验证性因子分析;测量等值;项目反应理论;

作者简介

张静，华东师范大学教育心理学系副教授，柏林洪堡大学心理测量学博士。

目录概览

一、OECD社会与情感能力测评工具

二、OECD社会与情感能力测评工具的测量学分析

2019年，经济合作与发展组织（Organisation for Economic Co-operation and Development，简称OECD）在世界范围内开展了青少年社会与情感能力研究（Study of Social and Emotional Skills），共有9个国家的10个城市参与了此次大规模国际测评项目。该研究的目标是测评各个国家（或城市）青少年社会与情感能力的发展水平，分析影响青少年社会与情感能力发展的家庭、学校和社区因素，预测社会与情感能力对学生健康、幸福感等生活结果的重要作用，从而为决策者、管理者与广大中小学教师提供启示和改革建议。

苏州市下辖的6个区和4个县级市共151所中小学校的7268名学生参与此次测评项目，包括3647名10岁和3621名15岁学生。作为中国经济、文化和教育的发达地区之一，苏州的测试结果及其揭示的问题带有指向意义，对中国进一步深化素质教育也具有借鉴价值。

一、OECD社会与情感能力测评工具

（一）OECD社会与情感能力测评框架

OECD社会与情感能力研究借鉴“大五人格”模型（Big Five Model），建构社会与情感能力的测评框架。此框架主要分为五大维度：任务能力（尽责性）、情绪调节（情绪稳定性）、协作能力（宜人性）、开放能力（开放性）和交往能力（外向性）。虽然这五个维度源自大五人格理论，但是又有发展，它们体现了人对社会情境的适应能力。每个维度又确立了三项子能力，任务能力对应大五人格的尽责性，包括自控力、责任感和毅力；情绪调节对应大五人格的情绪稳定性，包括抗压力、乐观和情绪控制；协作能力对应大五人格的宜人性，包括共情、合作与信任；开放能力对应大五人格的开放性，包括好奇心、创造性和包容度；交往能力对应大五人格的外向性，包括活力、果敢和乐群。表1呈现了正式测评中包含的五大维度和15项子能力。

（二）OECD社会与情感能力测评工具概览

社会与情感能力测评项目主要包括四类测评问卷：（1）学生调查问卷主要涵盖学生对其社会与情感能力的自我测评，但也包含有关学生学校和家庭环境的题项。（2）家长调查问卷包括有关孩子的社会与情感能力、孩子的成长背景、家庭环境以及家长的社会和情感能力等问题。（3）教师调查问卷收集教师对学生社会与情感能力的测评以及教师关于学校学习环境的报告。（4）校长调查问卷涵盖学校及其学生的更广泛的社会背景，以及旨在改善学习环境的学校现有的资源和计划。具体而言，2019OECD社会与情感能力正式测评为苏州测评现场提供了7份在线测评问卷。有两份学生问卷调查，一份针对10岁组，另一份针对15岁组。两个年龄组的父母问卷调查是相同的。教师问卷包括两个部分。第一部分由两个年龄组的教师完成，包括教师问卷调查和辅测定锚题。每位参与的教师都完成这一部分。第二部分包括两个版本，一个针对10岁组，另外一个针对15岁组。教师被要求为每个“他/她最了解”的学生完成这一部分。两个年龄组的主要问卷调查是相同的。表2列出了OECD社会与情感能力研究所使用的问卷调查信息。

正式测评协调员与测试主任对接会

二、OECD社会与情感能力测评工具的测量学分析

在经过2017年的题项筛选、2018年的现场测试后，结合2019年的正式测试结果，OECD的社会与情感能力的正式测评最终确定学生问卷包含65个问题（15岁组有68个问题）；家长问卷包含53个问题；教师问卷包含34个问题；校长问卷包括32个问题。其中学生直接和家长间接评估社会与情感量表中，每项社会与情感能力各有8个题项，共90个题项。教师间接评估量表中，每项社会与情感能力各有3个题项，共45个题项。值得注意的是，OECD综合所有参与国家或城市的数据分析后删减有些不太符合测量学标准的题项，表3呈现了学生直接评估和家长间接评估量表中各项社会与情感能力的删减题项。为了保持国际标准，本部分沿用OECD 2019社会与情感能力研究最终筛选后的各子能力测评题项分别进行测量学分析。

表4列出使用的主要分析类型及其相应的测量学指标。在适用的情况下，这些分析是在分组水平上进行的，包括按年龄进行分析。由于进行了大量的分析，本报告这一部分的结果仅包含部分发现，以突出相关问题。总体来看，15项社会与情感能力测评工具在中国文化背景下的信效度符合测量学标准。

（一）信度分析

表5和表6分别列出了根据学生自评和家长间接评估数据估计的15项社会与情感能力量表的信度，主要包括Alpha系数α（Cronbach,1951）和Omega系数Ω（Mc Donald,2013）。可以看出，无论是总体数据，还是基于10岁组或15岁组数据，学生和家长问卷调查中所有15项社会与情感能力各子量表的信度都相对不错（Alpha和Omega系数均高于0.70）。而且相对于10岁组学生，根据15岁组学生自评和其家长间接评估数据估计的量表信度要好。

表7显示了15项社会与情感能力量表中，教师对学生间接评估数据的量表信度。由于每个量表只有三个项目，因此预计信度低于根据学生和家长评估数据估计的信度，尤其是活力与自控力量表的信度比较低（Alpha和Omega系数均低于0.70）。然而，有一些量表的信度非常高，如毅力量表约为0.90。根据教师数据估计的量表信度在10岁和15岁组中差别不大。

（二）结构效度：验证性因子分析

为了进一步检验学生直接评估、家长和教师间接评估15项社会与情感能力测评工具的结构效度，本部分采用Mplus7.4(Muthén&Muthén,1998—2017）分别基于总体学生样本、10岁和15岁组学生子样本对这些测评工具进行验证性因子分析（Confirmatory Factor Analysis，简称CFA）分析。CFA的基本思想在于将所有的测量项（即所有因子对应的测量量表题项）放在一个因子里面，然后进行分析。为了保持国际标准，本部分沿用OECD组织基于所有参与2019社会与情感能力测评项目的国家或城市数据分析，最终筛选后的各子能力测评题目分别进行CFA分析（参见表3）。

判断各测量模型是否达到心理测量学可接受标准，主要依据卡方自由度比、RMSEA、SRMR、CFI等不太受样本大小影响的指标。如表4所示，若CFI（比较拟合指数）大于0.90,RMSEA（近似误差均方根）小于0.08,SRMR（标准化残差均方根）小于0.06，则模型拟合良好（Beauducel&Wittmann,2005;Heene,Hilbert,Draxler,Ziegler,&Bühner,2011;Hu&Bentler,1999）。如果测量模型拟合指标无法达标，即说明所有的测量项并不应该同属于一个因子。此时，可考虑根据模型修正指数（Model Indices,MI）修正模型直到上述各个指数达到可接受水平。如果因子与测量题项间的载荷系数低于0.40，也可考虑删除某测量项。

(1）学生直接评估量表

对于学生直接评估数据，表8、表9和表10分别呈现基于总体学生样本、10岁和15岁组学生子样本所有15项社会与情感能力的CFA模型各拟合指标信息。结果显示，最终量表的测量模型几乎所有指标都达到了测量学可接受水平，表明模型拟合良好，而且标准化因子载荷系数（各因子与测量项之间的系数）均大于0.40，说明每项社会与情感能力与其相对应的所有测量项之间有着良好的对应关系，结构效度好。对于10岁组的学生数据，活力这一能力的测量模型指标CFI=0.890，略小于0.90，模型拟合度一般。而对于15岁组的学生数据，好奇心和情绪控制两个能力的测量模型拟合度一般。根据模型修正指数显示，自由估计好奇心的第2题和第6题的误差方差相关系数，以及情绪控制的第3题和第8题的误差方差相关系数之后，这两种能力的测量模型拟合度良好。

(2）家长间接评估量表

对于家长间接评估数据，表11、表12和表13分别列出了基于总体学生样本、10岁和15岁组学生子样本15种社会与情感能力的CFA模型各拟合指标信息。最终量表的测量模型几乎所有指标都达到了测量学可接受水平，表明模型拟合良好，而且标准化因子载荷系数（各因子与测量项之间的系数）均大于0.40，说明每种社会与情感能力与其相对应的所有测量项之间有着良好的对应关系，结构效度好。与学生直接评估数据一致，对于家长间接评估10岁年龄组的数据，活力这一能力的测量模型指标CFI=0.890，略小于0.90，模型拟合度一般。对于家长间接评估10岁和15岁年龄组的数据，情绪控制和责任感能力的测量模型拟合度一般。根据模型修正指数显示，自由估计情绪控制的第2题和第4题的，以及责任感的第5题和第6题的误差方差相关系数之后，其测量模型的拟合度明显提高，均达到可接受水平。

(3）教师间接评估量表

不同于学生直接评估和家长间接评估量表，教师间接评估量表中每一项社会与情感能力各有3个测量题项，共45个题目，由最熟悉学生的教师来完成。验证性因子分析理论上要求每个因子至少有三个测量题项，因此，教师间接评估量表中每一项能力的测量模型都有且只有三个题项，是一个饱和模型。这些模型的自由度为零，CFI=1.00,RMSEA=0.00,SRMR=0.00(Brown,2006）。

（三）测量等值性检验：多组CFA

如前所述，OECD社会与情感能力测评项目主要抽取10岁和15岁年龄组学生参加，要比较不同年龄组或同一年龄组不同性别学生社会与情感能力的发展水平差异，首先要确保15项社会与情感能力的组间年龄和性别比较具有真实性和有效性。因此，社会与情感能力的测评工具必须具备跨年龄和跨性别测量等值性，这是组间比较的前提条件（French&Finch,2006）。

具体而言，我们使用Mplus7.4对每项社会与情感能力量表进行了三种测量等值检验：形态等值（无约束）、弱等值（因子载荷等值）和强等值（因子载荷和截距等值）。至少在满足强等值之后，组间比较才真实有效（Chen,2007;Cheung&Rensvold,2002）。一般来说，模型拟合度会随着模型约束的增加而降低，因为模型中约束越多，说明组间差异的空间就越小。为了判断测量等值的程度，除了每个模型的整体拟合外，还可以查看模型拟合的相对变化。

表14列出了模型拟合指数以及这些统计数据在不同模型约束条件下的变化，这些指数变化用于评估测量模型等值水平。一般认为，当RMSEA≤0.08,CFI≥0.90以及SRMR≤0.06时，模型达到较好的拟合水平（Satorra&Bentler,2001;Hu&Bentler,1999）。值得注意的是，卡方检验受样本量影响明显，随着样本量增大，即使很小的差异也可能会得到差异显著的结果，因此采用模型拟合指数CFI和RMESA的差异（即∆CFI和ΔRMESA）来评估测量等值性（Chen,2007;OECD,2019）。当∆CFI<0.01或ΔRMESA<0.015时，表明两个嵌套模型不存在显著差异，即认为模型等值可接受（王孟成，2014）。值得注意的是，用静态临界水平确定测量等值水平是不合适的，因为拟合指数只是指示性的，没有科学确定的接受或不接受标准。然而，当进行跨组差异比较（不同性别或不同年龄组）得出结论时，应记住量表测量等值性水平，以避免错误解读研究结果。

(1）跨年龄组测量等值检验

运用多组验证性因子分析分别检验15项社会与情感能力量表在10岁和15岁年龄组的测量等值性，结果如表15所示。首先检验形态等值，即检验潜变量的构成形态是否相同，同时也为下一步检验设定基线模型。在形态等值检验中，允许各种参数自由估计，得到的拟合指数见表15的M1。各拟合指数均达到心理测量学要求，形态等值成立，形态等值模型可以作为下一步检验的基线模型。在基线模型M1的基础上进行弱等值，即检验同一题项在不同年龄组载荷等值。年龄弱等值检验的拟合结果（见表15的M2）显示ΔRMSEA≤0.015，ΔSRMR≤0.030，或∆CFI≤0.01，这一结果支持各量表对应题项的因子载荷跨年龄组等值，即弱等值成立。在此基础上检验强等值，分别设定每个指标在10岁和15岁两个年龄组别的截距等值。跨年龄组强等值检验的拟合结果（见表15的M3）ΔRMSEA≤0.015，ΔSRMR≤0.030，或∆CFI≤0.01，这些结果说明了各题项跨年龄组的截距等值成立，即强等值成立。然而对于好奇心、乐观、乐群和包容度四项能力，有些题项的截距在10岁和15岁两个年龄组是不等的。自由估计好奇心的第6题，乐观的第5题，乐群的第4和第5题，以及包容度的第3题的截距之后，模型拟合指标均达到可接受水平，所以部分强等值成立。

(2）跨性别测量等值检验

多组验证性因子分析结果表明15项社会与情感能力量表分别在总体学生样本、10岁和15岁组学生子样本中具备跨性别测量等值性，结果如表16到表18所示。在形态等值检验中，允许各种参数自由估计，得到的模型拟合很好（RMSEA≤0.08,CFI≥0.90以及SRMR≤0.06），形态等值成立（见表16-18的M1）。当设定同一题项在男女样本中的因子载荷相等（弱等值，见表16-18的M2）后，嵌套模型比较分析发现两模型差异不显著（指标变化参见表14），从简约原则考虑应接受简洁模型M2，即弱等值成立。进一步设定每个题项在男女样本中的截距相等（强等值见表16-18的M3），模型拟合指数变化不显著，强等值成立。然而对于15岁年龄组，模型修正指数显示活力的第5题在男女中的截距不相等，允许自由估计之后，模型拟合指标均达到可接受水平，活力的部分强等值成立。

上述分析表明，15项社会与情感能力量表不仅在10岁和15岁组学生样本中跨年龄等值，而且分别在总体样本、10岁和15岁组学生子样本中男女跨性别等值，从而确保这些能力的跨年龄和跨性别比较真实有效。

学校协调员培训

（四）项目反应理论模型

OECD社会与情感能力研究的目标是为了考察10岁和15岁组学生在社会与情感能力上的表现。由于这些社会与情感能力属于个人特质（personal traits），是无法直接观察到的潜在结构（latent constructs），因此必须根据被试对一组题项（item）的回答来估计这些深层的心理结构。与OECD开展的其他大规模国际测评所不同的是，OECD对于社会与情感能力的测量基于学生-家长-教师“三角互证”（triangulation）的模式来进行（Kankarašet al.,2019），即在传统的学生自评之外，加上家长和教师对学生社会与情感能力的间接评价。在正式测评中，三方评价都通过相应的社会与情感能力量表来进行，一共包括15个单项能力测评（也即15个基本量表），其中学生和家长采用的量表完全相同，每项能力都采用8道题来进行测量。考虑到一名教师要同时评价多名学生，故而教师问卷中每项能力只在8道题中选取3道。正是由于学生、家长测评和教师测评之间的题量差别，所以OECD在计算各项能力得分时，也采用了不同的思路。对于学生自评和家长评价，OECD基于项目反映理论（Iterm Reponse Theory，简称IRT），使用Con Quest 4软件来估计（Adams,Wu,&Wilson,2015），经过删减题目和多次测量学校正，得到跨国可比的标准化分数。对于教师评价，OECD则简单计算了每个基本量表中3道题目的平均分数，将其作为该单项能力的得分，而且没有再进行其他测量学的校正。

基于学生和家长测评数据的最终能力值要通过赋分、模型估计、反应风格校正、标准化这四个步骤来实现。首先，OECD需要对题项（item）的原始选项（response）进行赋分（0—4分）；其次，利用IRT中的广义分步计分模型（Generalized Partial Credit Model，简称GPCM）对合并样本（所有城市的10岁组和15岁组学生）进行参数估计，并基于加权似然估计（Weighted Likelihood Estimate，简称WLE）算法获得能力初始值；再次，校正默认反应风格（Acquiescence Response Style）所带来的估计偏误，获得能力校正值；最后，将能力校正值通过线性变换转化为均值500分（所有城市10岁组均值）、标准差100分（所有城市10岁组标准差）的标准分，也即最终能力值。

(1）原始量表的赋分

社会与情感能力量表是5点计分的李克特量表，在利用IRT模型进行处理之前，需要先行对学生和家长评价的结果进行赋分，将量表项目的五个选项转化为具体分值（表19）。从下表中可以看出，对于正向题，1—5选项被赋值成为0—4分，而对于反向题，则进行相反赋分。

(2)GPCM模型与初始值估计

OECD社会与情感能力研究基于IRT理论来估计学生自评和家长评价的各项社会与情感能力的得分，具体采用的是GPCM模型（Muraki,1992）。GPCM模型是一个概率模型，用于处理分步计分类型的题项，或者称为有序多分类（ordered polytomous）题项。OECD社会与情感能力研究中的所有题项都采用5点计分的李克特量表，从“非常不同意”到“非常同意”。每个题项都有多个选项。对于具有mi个类别的题项i,GPCM模型采用下面式子来定义个体在特定题项中选择某个选项的概率：

此处，表示第n个被试在第i个题项上得到分数x i的概率；θn是第n个被试的潜在特质的估计值；αi是第i个题项的区分参数（discrimination parameter）；δi是表示第i个题项在潜在连续统（latent continuum）上的位置参数（location parameter）；τi j是一个表示第i个题项的第j个步骤的参数。

通过GPCM模型的估计并获得模型中所示参数的基础上，可以计算能力初始值，OECD社会与情感能力研究选择生成基于加权似然估计（WLE）算法的初始估计值（Warm,1989）。在上述GPCM模型的估计过程中需要使用综合权重（senate weight），学生综合权重依据学生最终权重（WT2019）计算得到，而家长综合权重依据家长最终权重（WT2019＿PA）计算得到。通过综合权重的使用，可以确保参与本次研究的所有城市都具有相同的代表性（即每个城市加权后的测评人数都为3000人）。

(3）初始值的ARS校正

反应风格（Response Style）是指被试回答问卷时不以题目实际内容为依据的一种系统性行为倾向（郭庆科，2007）。比如，对于同一类型的题目，某一被试都倾向于选择“4-同意”，而忽略了题目本身所包含的具体信息。反应风格的存在会引起共同方法偏差，并造成系统的测量误差。对于反应风格造成的测量偏差，可以采用的方法主要有计数法和模型法两大类（张缨斌，王烨晖，2019）。OECD社会与情感能力研究采用了正、反向计分题配对法，从15项能力的量表中挑选了25对正、反向计分题，并用如下公式计算其默认肯定集（acquiescence response sets,ARS):

上式中，表示被试n的默认肯定集；表示被试n对于正向计分题i的回答；表示被试n对于反向计分题i的回答。

利用上述公式得到每个被试的ARS，可以对WLE初始值进行默认反应校正（也称为ARS校正），以减少由于默认反应风格带来的测量偏误。ARS校正利用ARS对WLE初始值的线性回归系数，估计两者之间的线性关系，再利用此种线性关系估计含有ARS偏误的WLE初始值分数，并将其从WLE初始值中减去。具体地，首先用线性回归模型估计WLE分数与ARS之间的线性关系，获得参数a、b，也即：

然后，利用参数a、b得到含有ARS偏误后的WLE分数，也即：

最后，将初始估计值减去含有ARS偏误的估计值，得到ARS校正后的WLE估计值（即校正值）：

(4）校正值的标准化

WLE初始值和ARS校正值都是分对数形式（logit metric），不便于用来直接呈现各项能力值，因此需要进行标准化转换。与PISA类似，OECD社会与情感能力研究选择将各项能力值转化为一个均值500分，标准差100分的标准化分数。具体公式如下：

上式中，表示个体n被标准化后的能力值；表示个体n的校正值；表示10岁组校正值的均值；表示10岁组校正值的标准差。

在标准化的过程中，10岁组的均值和标准差被作为参照，以确保均值（500分）对应着10岁组的平均水平，即超过500分表明高于10岁组的均值，而低于500分则相反。值得注意的是，对10岁组的均值和标准差的计算，都需要使用学生综合权重，以确保计算结果对所有城市都具有相同的代表性。

在经过上一步标准化之后，还需要进行一次中间值（mid-points）校正。中间值校正的目的在于，使得均值500分所对应的平均选项为中间选项（3-一般）。在所有被试中，有一类被试倾向于做出中间选择（mid-point），将这部分被试的平均能力值进行计算得到。然后，从500中减去，再将其差值加到上一步标准化能力值中，就获得了如下式所示最终能力值：

(5）单项能力值的整体结果

表20—21中分别呈现了根据学生、家长、教师数据得到的各项能力值的均值和标准差。总体而言，在同一年龄组内，学生自评的能力值较高，而家长评价的能力值较低，尤其在10岁组阶段最为明显。不同年龄组相比较而言，学生自评的结果中，10岁组在各项能力上的得分要普遍高于15岁组，但是基于家长和教师评价的结果，15岁组在部分能力上的得分要高于10岁组。

为适应微信排版，已删除注释和参考文献，请见谅，

如需阅读全文，请点击左下角“阅读原文”获取。

上期回顾

特稿

周作宇：论教育评价的治理功能及其自反性立场

专题：智慧教育

顾小清等 | 智慧教育的理论框架、实践路径、发展脉络及未来图景

孙妍妍, 何沣燊 | 以“工程”为中心的STEM课程驱动问题设计研究

彭晓玲, 吴忭 |“数据驱动的精准教学”何以可能？——基于培养教师数据智慧的视角

武法提等 | 智慧教育视野下基于Rasch模型的知识掌握与认知能力分析研究

张屹等 | 小学数学PBL+CT教学促进学生计算思维培养的研究——以“怎样围面积最大”为例

基本理论与基本问题