专家视点 | 金艳：外语教师评价素养发展：理论框架和路径探索

外研测评 2022-04-24

以下文章来源于外语学术科研网，作者金艳

提要：本文回顾了语言评价素养的概念定义和理论框架，提出了我国语言评价素养研究的分类体系，并通过几个典型案例分析了语言评价素养研究的内容和方法。基于理论框架和研究回顾，本文对我国外语教育环境下的教师评价素养发展提出了建议。作者指出，语言评价素养是一个多层面、多维度的概念，外语教师应根据评价活动类型有所侧重的发展评价素养。具体来说，外语教师不仅需要理解和使用大规模考试，开发和实施学业测试和课堂评价，而且要结合我国外语教育改革动态，不断提高评价的有效性，改进评价对教学的导向作用。

关键词：语言评价素养；理论框架；发展路径；外语教师

1. 引言

随着语言测试用途的不断拓展，考试的结果被用于各种高风险决策，考试的社会学问题越来越受到重视（McNamara & Roever 2006；杨惠中、桂诗春 2007，2015）。高风险考试要求从业者确保考试的专业化，合理使用考试结果，关注考试所产生的社会效应（Brindley 2001；Davies 2008；Spolsky 2008）。同时，随着教育问责制的推行，对问责考试（accountability testing）开发者和使用者的评价素养也提出了更高的要求（Chalhoub-Deville 2016）。教师是问责考试最主要的利益相关群体，教师的评价知识、评价能力和伦理道德水平等对其职业发展具有重要意义（Fulcher 2012；Popham 2009；Rea-Dickins 2008）。在这些因素的推动下，评价素养（assessment literacy）逐步被纳入语言测试的研究范畴，并受到越来越多的关注。

目前，我国有多种用于入学、毕业、就业等目的的高风险外语考试，还有各类校本考试和课堂评价（Cheng & Curtis 2010；Yu & Jin 2016），涉及教师、学生、家长、教育政策制定和行政管理部门、社会使用者等多个群体。然而，目前国内对外语教师的评价能力探讨比较零散，对教师评价能力的理解还不够全面，能够结合教学实践和教学情境进行对教师评价能力的探讨则更少（唐雄英 2013；许悦婷 2013）。本文将聚焦教师这一重要的教学和评价主体，探讨外语教师评价素养的发展路径。

2.语言评价素养的理论框架

2.1 语言评价素养的概念

Taylor（2009）指出，语言评价素养（language assessment literacy）研究需要清晰的概念界定，即采用通俗的、非专业化的方式描述其内涵和外延，使其更易于被理解和运用。Davies（2008）基于其长期从事语言测试研究和实践的经验，从原则（principle）、知识（knowledge）和技能（skill）三个维度，对语言评价素养作了简洁、清晰的界定。“原则”是指导考试开发和使用的理论基础和伦理道德；“知识”是支撑考试实践的语言能力和教育测量方面的知识体系；“技能”是考试设计、评分、数据分析和成绩报告等方面的实践能力。

以Inbar-Lourie为代表的后现代派从社会建构主义视角理解语言评价素养，强调知识和意义在社会环境中的共建，由此形成了更加全面、动态的语言评价素养观（参见Inbar-Lourie 2008，2013a；Taylor 2009；Xu & Liu 2009）。Inbar-Lourie（2008）回顾了教育学、语言教学和测试领域有关评价素养的研究文献，提出语言评价素养由三个核心模块组成，即“为什么评”“评什么”和“怎么评”。她认为，语言评价工作者应掌握如何选择或设计评价工具、分析评价结果，但是仅有这些实践能力还不够，还需要具备相关理论和认识论的知识，将评价实践融入教育学、语言学及应用语言学的知识体系。Inbar-Lourie 的贡献在于明确提出语言评价素养并非狭隘的语言测试专业知识，而是一个与语言学习各方面紧密关联的动态知识体系。

Fulcher（2012）基于实证研究拓展了评价素养的概念。该研究开展了教师问卷调查，采用因子分析方法，构建了一个立体三维的语言评价素养扩展定义（见图1）。该定义的底层是语言评价的实践能力，即开发、实施和使用语言评价的知识、技能和能力；中间层是评价过程、原则和理念，即评价者需熟悉考试过程，了解指导考试实践的原则和理念，包括道德规范和行为准则；顶层是环境因素，即评价者需要在更广泛的历史、社会、政治和哲学背景下开展评价，以更好地理解评价的机制及其对社会、机构和个人的影响。扩展后的定义涵盖了语言评价活动的各个方面，包括评价的环境、评价工具的开发和使用及其产生的后果。不仅如此，该定义把“原则”作为一个独立的层面，凸显了理论基础、行为准则和道德规范对语言评价的重要性。

2.2 语言评价素养的研究

林敦来、武尊民（2014）将语言评价者分成两大类：1）与评价活动密切相关者（如评价从业者）；2）更广泛意义上的评价活动相关者（如政策制定者、用户）。不同群体的评价素养研究内容有所不同。对于第一类群体，研究内容主要是语言评价知识库理论和培训的方法、材料、课程等；对于第二类群体，研究主要围绕语言评价熟悉程度或语言评价素养连续体的建立。参考该分类框架，同时结合作者对我国语言评价素养研究文献的回顾，本文提出一个更适合我国语言评价素养研究的分类框架（见图2）。

我国语言评价素养研究主要分为两大类：一类是理论框架的构建，另一类是现状分析和需求调查。在理论层面上，我国学者重点关注了语言评价素养概念界定（如林敦来、高淼 2011；林敦来、武尊民 2014；唐雄英 2013；许悦婷 2013），也有学者开始探索评价连续体（如Xu & Brown 2017），即测量个人或群体的评价素养的工具。在实践层面上，我国的研究聚焦课程和培训的内容和方法（如Jin 2010；Jin & Jie 2017；Lam 2015），关注不同群体的需求以及他们的评价实践（如Fan & Jin 2013；Jin, Zhu & Wang 2017；Xu & Brown 2017；Xu & Liu 2009；Zhang & Yan 2018；许悦婷、刘永灿 2008)。2.3 节将以作者曾主持的三项研究为例，阐述语言评价素养研究的内容和方法。

2.3 案例分析

案例 1：语言测试课程调查

Bailey & Brown（1996）和Brown & Bailey（2008）在全球范围内开展了两次关于语言测试课程的问卷调查，了解课程设置、教学内容以及学生对课程的反馈。但是，这两次调查几乎没有来自中国的样本，仅2008年的数据中有两份问卷来自中国。为此，Jin（2010）开展了我国的语言测试课程调查，内容包括任课教师的教育背景、教学经历、教学内容、教学方法，以及学生的看法和教材等。通过对86名教师的问卷调查发现，这些课程虽然较好地覆盖了语言测试理论和实践的主要内容，但是课程很少涉及教育和心理测量方面的最新发展，命题和数据分析的实战操练严重欠缺，大部分教师尚未重视拓展后的整体效度观，对语言测试的社会学问题，包括考试的社会影响和教学后效等探讨不够。

案例 2：自动评分对写作教学的影响

为了了解大学英语四、六级考试作文和翻译自动评分对教学可能产生的影响，我们设计了一份测量教师和学生自动评分相关的评价素养问卷，调查了教师和学生：1）运用自动评分系统的经历；2）对自动评分的认识和理解；3）对自动评分的评价和信心；4）对自动评分可能产生的教学后效的看法（Jin, Zhu & Wang 2017）。研究发现，教师对自动评分系统的理解和认识显著优于学生；教师和学生对自动评分系统能“读懂”文本的信心不足，对评分的准确性和公平性也有一定程度的担忧；教师和学生都认为自动评分系统的运用可能会对学生的写作动机、写作策略等产生负面影响。这些研究结果对自动评分系统的推广运用具有重要的启示。

案例 3：工作坊有效性研究

工作坊是语言评价素养培训的主要方式之一（Malone 2008）。但是，语言测试领域鲜有关于工作坊效果的实证研究。Jin & Jie（2017）调查了一个为期一周的语言评价培训课程的有效性。研究问题是：1）学员对课程各个模块的评价如何？2）以前的培训经历对学员的评价是否有影响？3）课程是否能有效提高学员的语言评价素养？数据分析发现，学员对课程的整体评价以及各个模块的评价很高，而且以前的培训经历对其评价基本没有影响。研究采用了自行设计的语言评价素养测试，通过学员和对照组的答题数据分析发现，学员在课程相关的评价素养各维度上均有所提高。

2.4 对语言评价素养发展的启示

自20世纪80年代起，语言测试领域就开始重视对教师的测试理论和实践能力的培养。国内外出版了多本浅显易懂、面向语言教师的测试理论与实践专著（如Heaton 1988；Hughes 1989；McNamara 2000；Weir 1993；桂诗春 1986；刘润清、韩宝成 1999；武尊民 2002；张厚粲 1983；邹申 1998），还举办了各种培训活动（Malone 2008）。但是，对语言评价素养理论和实践的深入研究始于近十年。Fulcher指出，“语言评价素养研究仍处于起步阶段”（Fulcher 2012：117）。2011年在美国召开的第33届“国际语言测试研究研讨会”（Language Testing Research Colloquium，简称LTRC）首次举办了以语言评价素养为主题的专题研讨会，会议报告发表于Language Testing创刊30周年的纪念专刊（Inbar-Lourie 2013b；Taylor 2013）。

通过对语言评价素养概念定义和相关研究的回顾，我们可以看出，语言评价素养是一个多层面、多维度的复杂概念，语言测试领域已经开始探索这些层面和维度以及各个维度之间的关系，并开展了教师评价素养现状和需求方面的各种实证研究，这些研究结果对教师培训、课程设计、改进考试对教学的后效等都具有重要的参考价值。但是，语言评价素养的理论框架仍有待进一步的论证，语言评价素养的发展路径仍有待探索。下面将以评价素养理论框架的进一步研究为出发点，结合我国外语教育体系的特点，探讨我国外语教师评价素养发展的路径。

3. 外语教师评价素养的发展路径

3.1 评价素养的理论框架研究

Taylor（2013）指出，Fulcher（2012）的理论框架没有细致区分不同群体的要求，也未指出各个层面所包含的维度和所需达到的程度。为此，Taylor对评价活动的相关群体进行了细分，从内圈的评价工作者（如考试设计者、研究者），到中间层面的评价实施者（如课程设计者、教师），再到外围的评价相关群体（如公众、政策制定者），并针对不同的群体提出了更细致的语言评价素养维度以及各个维度上所需达到的要求。以对教师语言评价素养的要求为例（见图3），教师应掌握评价相关的理论知识、专业技术能力、评价原则理念、语言教学能力、社会文化知识、本土实践能力、个人信念/态度、评分和决策能力等；对语言教学中的评价素养来说，核心维度是教师的评价实践能力，相对而言，其测量理论、伦理道德等方面则可略知一二。

结合第二部分的评价素养研究回顾来看，我国的语言评价素养研究领域目前仍处于一个盲人摸象的探索阶段，即缺乏一个整体的指导性框架，研究者根据自身的实践经验，从不同的视角了解教师评价素养的现状和需求。从国际上该领域的研究进展来看，Taylor（2013）等学者所提出的评价素养要求也仅仅是理论假设，尚未经过实证研究。因此，评价素养发展首先需要进一步探索契合培养对象和评价环境的理论框架，如适合我国外语教学环境的教师评价素养应包含哪些维度，各个维度上的具体要求是什么，这些维度之间的关系如何等。

3.2 发展路径探索

3.2.1 对外语教师的评价素养要求

尽管外语教师的评价素养发展仍缺乏指导性的理论框架，但是20世纪70年代末以来我国外语教育领域快速发展，使我们得以在外语评价实践的摸索过程中获得许多经验。因此，参考Fulcher（2012）的拓展定义和Taylor（2013）针对不同群体提出的语言评价素养图，同时结合我国外语教育领域的主要评价实践活动分类，本文提出一个对外语教师评价素养要求的模型（见图4）。

首先，如图4左侧所示，评价素养主要包含三个层面：评价环境（A），评价过程、原则和理念（B），以及评价知识、技能和能力（C）。如果我们把对教师的评价素养要求从低到高进行描述，并用李克特五点量表表示为1至5，那么对外语教师评价素养的要求就可以根据各类评价任务的特点，用类似评分时采用的量表进行更为细致的描述。其次，如图4右侧所示，我国外语教学中采用了多种类型的评价，主要包括以下三大类：大规模考试（如高考、大学英语四、六级考试)，校本的学业测试（如分班考试、期中或期末考试），以及丰富多样的课堂评价。不同类型的评价目的不同，方法和内容不同，教师和学生的参与度不同，所需的评价素养也不同。

具体来看，外语教师经常开展的是课堂评价活动，包括设计评价任务、实施课堂评价、记录评价结果、反馈评价信息等。这些评价活动对教师在实践层面的评价素养要求最高（C=5），其次是过程、原则和理念层面的评价素养（B=4），而环境层面的要求则相对可以低一些（A=3）。外语教师有时需要参加校本学业测试的开发和实施，包括确定考试目的、制定考核目标、设计和命制试题和评分标准、实施考试和评分、报告考试结果。这些评价活动对各个层面的评价素养要求都较高（A=4，B=4，C=4）。大部分外语教师并不直接参加大规模考试设计，但他们需要了解考试的目的，理解考试的目标，熟悉考试的内容、题型和评分标准，理解分数含义，并且合理使用考试结果。与课堂评价不同，大规模考试方面的评价素养要求以环境、层面为最高（A=5），实践层面为最低（C=3）。当然，如前文所述，这些对外语教师的评价素养要求是作者依据实践经验提出的假设，有待将来在实证研究中得到进一步论证。

3.2.2 外语教师的评价素养培训

评价素养发展既具理论性，又有很强的实践性。外语教师既需要评价专业知识和技能，又需要外语教学能力和经验。评价素养的培训应根据外语教师的实际需求，平衡好实践、原则和环境等不同层面的要求（Taylor 2009）。而且，培训课程可以分模块，对每个维度上的评价素养进行细致的培训；培训方式有工作坊、在线学习、自学等。工作坊尽管费时、昂贵，但仍是最常用的方法，是正式课程的有效补充（Malone 2008）。

无论采用何种培训方式，也无论针对何种类型的评价活动，评价素养都需要在教学和评价实践中不断发展和提高，脱离实际运用的培训是不会产生良好效果的。从研究角度来看，评价素养并非一个“非有即无”的概念，而是一个循序渐进的连续体，可以分层次、分等级，形成一个有坡度的阶梯。因此，我们需要加强语言评价素养连续体的研究，开发对评价素养掌握程度进行评价的工具，探索提高评价素养培训有效性的方法和途径。

20世纪90年代初，美国教师联盟和全国教育测量委员会等机构提出了教育评价能力职业标准，从评价工具的选择、评价工具的设计、评价的实施、评价结果的解释和运用、评价手段的开发、评价结果的报告以及评价中的伦理道德等七个方面对教师的教育评价能力提出了要求（参见唐雄英 2013）。目前，我国对教师评价能力发展仍缺乏理论研究和实践探索，教师资格认证也尚未对教师评价能力提出任何要求。如果能够开发出评价教师语言评价能力的有效工具，就可以用来跟踪培训过程，检验培训效果，并对参加培训的教师进行评价素养资格认证或颁发合格证书。

3.2.3 评价素养发展与外语教育改革

环境因素是评价素养理论框架中的一个重要层面。我国外语教师的评价素养研究和发展还需紧密结合国家外语教育改革动态，满足国家对不同教育层次的评价要求。例如，根据《国家中长期教育改革和发展规划纲要（2010—2020 年）》（国家中长期教育改革和发展规划纲要工作小组办公室 2010），九年义务教育阶段的要求是减少考试和竞赛，各种等级考试和竞赛成绩不得作为义务教育阶段入学与升学的依据；对高中阶段教育的要求是全面实施高中学业水平考试和综合素质评价。因此，对中小学外语教师评价素养的培养需要更多地侧重课堂评价和学业测试，并以促进学习作为评价的重要理念。

此外，我国正在推进外语教育目标和能力标准的改革（林蕙青 2015，2016），评价体系改革既是外语教育改革的内容，也是教育改革的重要推动力；评价体系不改，教育改革则无法推进。以最近教育部考试中心研制和发布的《中国英语能力等级量表》（2018）为例，外语教师需要了解量表研制和发布的社会背景（即“环境”层面的评价素养），学习量表的理论基础和框架结构，理解量表的等级设置原理和原则（即“原则”层面的评价素养），并在教学实践中使用量表，特别是在课堂评价和学业测试的设计和实施过程中，研究量表所描述的能力标准与课程目标的关系，探索量表对教学评价的作用和意义，验证量表的效度并对量表的改进提出意见和建议（即“实践”层面的评价素养)。

4. 结语

本文分析了语言评价素养的基本概念和理论框架，回顾了语言评价素养研究的主要内容和方向，提出了对我国外语教师评价素养发展的思考。首先，发展外语教师的评价素养需要开展更多的相关研究，以构建适合外语教师的评价素养发展理论体系。其次，外语教师的评价素养发展不仅要与国际接轨，更要突出我国外语教育环境的特点。我们的外语教学和评价环境、规模、管理体系等与国外不同，我们的外语教学和评价方法、教师评价素质与国外也有差异，在评价素养发展中须充分考虑环境因素的影响，探索适合我国外语教育的发展路径。最后，需要指出的是，本文仅关注了教师群体，但是教学是教师和学生共建的过程，目前语言测试领域很少有关于学生评价素养方面的研究（Watanabe 2011）。因此，未来的理论研究和实践探索都需要更多关注学生这个重要的利益相关群体。Inbar-Lourie（2013b）在Language Testing专刊的编者按中指出，语言评价素养的研究和发展任务艰巨。我们需要更清晰的概念定义和理论框架，需要进一步明确提高语言评价素养的目的，究竟是为提高专业程度较高的测试从业者水平，使其成为更好的守门员，还是服务于更广泛的利益相关群体；还需要根据各个方面素养的重要性程度，构建一个有梯度的语言评价素养共核体系。

注：由于篇幅所限，注释与参考文献已省略，详见全文。期刊网址：http://www.celea.org.cn/fleic

作者：金艳，上海交通大学外国语学院教授，博士生导师。

本文选自《外语教育研究前沿》（原名《中国外语教育》）2018年第1卷第2期，第65—72页。

读者福利

本期为大家送上一个福利，在本文下留言，谈谈你对教师评价素养或外语测评的理解与看法，小编将会在精选留言中抽取三名幸运读者赠送上图中价值199元的精品课程（金艳教授主讲）。课程的详细信息可点击“阅读原文”了解。抽奖结果将在9月13日前公布，期待看到你的留言！

学习·分享·成长

长按关注外研测评

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

专家视点 | 金艳：外语教师评价素养发展：理论框架和路径探索

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

专家视点 | 金艳：外语教师评价素养发展：理论框架和路径探索

您可能也对以下帖子感兴趣