来读书 | 第六期：计算机辅助语言测试的发展、成就、现状与展望

Original 高淼外研测评 2022-04-24

“来”有话说

“来”读书又和大家见面啦！

在上期“来读书”中“来”读书 | 第五期：评价意义（Assessing Meaning），林敦来副教授提到了第三届语言测试与评价国际研讨会暨英语语言测评“新方向”研讨会，并分享了会议主旨发言人 Purpura 教授的评价意义；这次大会也专设了“人工智能与语言测评”这一分会场，凸显计算机技术与人工智能为语言测试引领“新方向”。

本期 “来读书”，高淼副教授将分享在计算机辅助语言测试领域颇有建树的 Chapelle, C. A. 和 Voss, E. 两位学者发表在 Shohamy 及同事主编的 Language Testing and Assessment 第三版（2017）中对此话题的论述。

本期主笔

高淼

高淼，2014年毕业于北京师范大学，获英语语言文学博士学位。现就职于中央财经大学外国语学院，副教授。研究方向为语言测试与评价，英语教学。参与教育部“义务教育阶段英语学习质量监测系统”工作，在该项目的口语测试效度验证方面做了深入的研究；参与国家社科基金项目等研究课题。目前已出版专著一部，发表论文数篇。

将计算机技术用于语言测试开发和实施的做法称为计算机辅助语言评估（computer-assisted language assessment）或计算机辅助语言测试（computer-assisted language testing, 简称 CALT），本文主要内容包括 CALT的早期发展、主要成就、发展现状、问题与挑战、未来展望。

1. 早期发展

早期 CALT 主要用于大学的语言课程中，相关文献见 Technology and Language Testing (Stansfield, 1986) 以及 Computer-Assisted Language Learning and Testing: Research Issues and Practice (Dunkel, 1991) 这两本论文集。具体发展体现在以下三个方面。

1）项目反应理论（item response theory）的应用。项目反映理论大大超越了经典测量理论对题项难度和区分度的计算，它直接促使了上世纪80年代计算机自适应测试（computer-adaptive tests，简称 CAT）的研究热潮，当时也是第一代微型计算机的蓬勃发展时期，许多研究围绕 CAT 开展，如将其用于大学的分级考试等（Madsen, 1991）[1].

2）对将计算机用于语言测试的可能性的探究。兰卡斯特大学出版的 Language Testing Update 刊物第一期探讨了计算机用于语言测试的诸多可能性，以及不同的测试使用者可以如何使用计算机技术来改进测试 (Alderson, 1988)。CALICO Journal 探究了如何使用计算机技术使水平测试能够提供较细致的诊断性信息(Clark, 1989)。

3）对将计算机技术用于语言测试的疑虑。尽管以上研究彰显了将计算机技术用于语言测试中的巨大潜力和意义，由于 CALT 的发展依托于计算机领域的硬件发展以及涉及跨学科知识等困难，当时的测试开发者和研究者并没有重视对计算机技术的应用，仅有少数大学层面的研究，如上所列。

但是，没有人能够阻挡科技势必向前发展的潮流，在上世纪末，许多大的测试项目都开始尝试和使用计算机进行测试的开发和实施。下面详细介绍发展时期的 CALT.

[1] 本文中所引文献出处请读者查阅本书中原文的参考文献，因不是本文所直接参考的文献，这里不再罗列。

2. 主要成就

1）计算机自适应测试大大提升了水平测试以及分级测试的效率，每一道试题能够精准匹配考生的水平，帮助测试者获取准确的信息。此外，CAT 也突显了设计独立的测试任务和选择符合测试目的的自适应性算法（adaptive algorithm）的重要性（Vispoel et al. 2000; Eckes, 2014）。

2）技术的发展及与测试的交融促使研究者重新审视构念的界定，作者以听力测试和口语测试为例来说明。多媒体以及信息科技的发展，使听力材料视频化、在线听力、听说写结合等成为学习者的日常英语听力情境和学习常态，大大超越了传统听力测评中单纯的放音-答题式听力考试。计算机辅助的听力测试能够真实地体现以上任务特征，那么在对分数解释时自然也要考虑到以上情境因素，所以如何界定构念以及探究考生与任务的交互成为研究的关注点;同时研究技术的发展也推动这些研究的深化，如越来越多研究者采用“眼动”技术（如 Suvorov, 2015）。又如，计算机科技的发展使基于计算机的低利害口语诊断性测试可以在设计和实施时将更多的非语言信息（如手势和面部表情等）嵌入测试任务中，并对考生在这些方面的作答表现给予评估和反馈。Hoque(2013) 汇报了 MIT 研发的一款名为“口语教练”的测评系统，能够通过自动评分对考生在会话中的点头以及微笑等表现作出描述和总结。此外，计算机科技下执行器（actuator）和传感器（sensor）技术的发展使机器能够敏锐地监控和记录考生的情绪变化和情感状态，如口语测试中考生的焦虑程度等。Santos et al.(2016)探索了基于情境智能（ambient intelligence）技术，使机器能在模拟会话中，根据考生情感状态的变化，提供实时的包含听觉、视觉甚至触觉的自然的人机互动和反馈。

3）自然语言处理技术（natural language-processing technology，简称 NLP）在口语和写作测试中的应用，使对建构应答（constructed response）的评分成为可能，使大规模测试的测试任务不再仅仅局限于选择性应答题型。2010年的 Language Testing 出版了一期关于这方面的研究专刊，感兴趣的读者可以查阅。目前 NLP 技术在写作测评中的应用比口语测评更加广泛，研究亦更加深入。

4）语料库语言学在测试开发和效验中的应用。由学习者语料构成的语料库可以使研究者发现能够区别学习者水平的关键性语言特征（criterial linguistic features），这些特征是制定评分标准以及语言能力标准的一个基础。由体现目的语言使用域的语料所构成的语料库可以使研究者确定与特定语言使用域相关的词汇、句型以及功能，并作为测试任务设计的一个依据；在采用部分得分评分制（partial-credit）时，测试者可以从这样的语料库中确定哪一些由不同词汇组合出的答案能够得分；同样，基于词频与语言水平之间的关系来确定阅读和听力材料也是这类语料库在测试开发中的一个应用。此外，对考生测试表现的语言特征分析为基于分数解释的效度论断提供证据。

3. 发展现状

使用技术的目的是提高测试的效率，所以很多研究致力于用 CALT 替代原有的纸笔测试（paper-based language testing，简称 PBLT），于是掀起了这两种测试之间可比性的研究。首尔大学对使用基于计算机的和基于纸笔测试的英语水平测试（Test of English Proficiency, 简称 TEP）进行了对比研究，通过对两种测试模式所测构念进行多层面的分析，发现在听力和语法部分，两种测试的一致性较高，而在阅读部分一致性较低（Choi et al.，2003）。

在上述对比研究的基础上，探究不同模式下考生作答表现的差异是一个需要进一步研究的问题，往往这类研究关注于如何确保考生的作答表现不受计算机这一外部条件的负面影响。事实上，随着首次接触电子设备的年龄越来越小，语言素养和计算机素养趋向同步发展，剑桥英语考试（Cambridge English Language Assessment）允许少儿考生自己选择考试的模式（CBLT 或是 PBLT）并对不同模式下的表现进行对比研究，分析表明，少儿考生的计算机操作能力很强，尤其善于在平板电脑上答题（如 iPad）（Papp and Walczak, 2016）。

随着计算机技术在语言教育中的运用越来越广泛，研究者致力于借助计算机技术使低利害的测试在教学中发挥更大的作用。基于网络的 DIALANG 测试体系（Alderson, 2005）可以为学习者提供丰富的诊断性信息；而 Longman English Interactive（Rost, 2003）是一个基于计算机的学习资源体系，在每单元学习之后都有单元测试，评估学生的单元学习情况并提供反馈信息。计算机技术也越来越多地运用于教师自己设计的测试中，在学生的学习进展、复习备考以及自我评估方面发挥作用，使考生和测试之间有了更良性的互动关系。随着手机的普及，越来越多上述低利害的测试实践也在移动终端上进行尝试，如低利害的词汇测试应用（app）的开发（Palomo-Duarte et al. , 2014），辅助语言学习的各类应用的开发，以及帮助学生备考托福雅思等标准化测试的应用开发等。对于高利害测试对来说，由于其安全性要求极高，基于手机的测试开发仍面临不少现实的困难。但是手机的功能丰富，上网方便，使用普及，因此对基于手机的低成本、大规模、高利害的多模式交互性的语言测试的开发越来越多。如西班牙的两所大学探究了基于手机的大学入学测试，涵盖语法、阅读、写作、听力以及口语（García Laborda et al. 2014）。研究表明，基于手机的测试在考查考生听说能力方面效果最好，由于受限于手机屏幕大小，不太适合用于对阅读能力和写作能力的考查。

以上 CBLT 的发展都依赖于软件基础设施的发展，所以开发适用于或针对语言测试开发或实施的创作系统（authoring systems）[1] 非常重要。这样有针对性的创作系统可以生成更多样化的测试任务类型，并实现教学与测试的整合、建构应答的评分、口语测试的评分及对口语作答表现的分析。

[1] 计算机专业用语，一种可编程的软件。

4. 问题与挑战

随着技术的不断发展，CBLT 的发展潜力无限，面临的最大挑战也是来自于技术发展本身和对相关人才的培养和需求方面。大型专业测试机构资源丰富，更容易跟上技术发展的步伐，其他小规模的测试机构或测试产业仅为其一部分业务的教育类机构，则更多通过寻求合作和共享资源的方式谋求在这一背景下的测试开发。

另一个挑战来自构念的界定。计算机技术的使用使传统纸笔测试的任务情境发生了很大的变化，比如在阅读测试时，考生可能会借助在线词典或其他多模态手段辅助阅读理解，那么在这样的情况下，对阅读能力的界定可能就是“能够采用合适的策略，有效借助在线帮助完成阅读任务的能力”，所以对策略能力的理解和界定也发生了一定变化。根据许多考生的真实阅读情况，提供上述在线辅助从一定程度上使测试任务与目的语言使用域下的阅读任务更加匹配，但是究竟提供多大程度的辅助合适？怎样界定所测的阅读能力更恰当？再如自然语言处理技术的应用能对考生的作答表现进行细致的语言特征分析，那么在口语诊断测试中，如果仅仅从“口语能力”这样的宏观概念出发来界定构念，则无法描述口语表现的不流利程度及判断究竟哪种类型的错误更值得关注，也就无法为考生提供有意义的反馈信息。

最后一个挑战来自对计算机辅助测试项目的评估方面，也可以理解为效度和效验方面。如上文所述，当前大多研究关注的是提高测试效率和验证不同模式（CBLT vs. PBLT）的可比性，作者指出，应该将测试所依托的具体技术融合在效度验证的宏观设计中，从设计之处就要考虑和探究可能的测试后果，如 CBLT 的一个可能的反拨效应—推动技术与语言学习的融合及提高学习的效率。

5. 未来展望

文章最后指出 CBLT 未来发展需要关注的方面，一是如何实现整个测试领域有关 CBLT 的认知升级，作者指出应用语言学硕士不仅需要学习相关知识理论还要尽可能参与具体的 CBLT 研究实践；测试学专业的研究生阶段也要加强语料库语言学、二语习得以及世界英语等领域的专业课程学习。二是如何使创作系统（authoring system）或相关软件更加便于用户使用，这里的用户主要指测试研究及开发人员，从而进一步深化技术在测试开发中的应用和融合。

拓展阅读

Chalhoub-Deville, M. (Ed.). (1999). Development and Research in Computer Adaptive Language Testing. Cambridge: University of Cambridge Examinations Syndicate/Cambridge University Press.

Chapelle, C. A., & Douglas, D. (2006). Assessing Language through Computer Technology. Cambridge: Cambridge University Press.

Chapelle, C. A., Jamieson, J., & Hegelheimer, V. (2003). Validation of a web-based ESL test. Language Testing, 20(4), 409–439.

Chapelle, C. A., Cotos, E., & Lee, J. (2015). Diagnostic assessment with automated writing evaluation: A look at validity arguments for new classroom assessments. Language Testing, 32(3), 385–405.

Choi, I.-C., Kim, K. S., & Boo, J. (2003). Comparability of a paper-based language test and a computer-based language test. Language Testing, 20(3), 295–320.

García Laborda, J. G., Magal-Royo, T. M., Litzler, M. F., & Giménez López, J. L. G. (2014). Mobile phones for Spain’s university entrance examination language test. Educational Technology & Society, 17(2), 17–30.

Neumann, M. M. (2016). Young children’s use of touch screen tablets for writing and reading at home: Relationships with emergent literacy. Computers & Education, 97, 61–68.

Santos, O. C., Saneiro, M., Boticario, J. G., & Rodriquez-Sanchez, M. C. (2016). Toward interactive context-aware affective educational recommendations in computer-assisted language learning. New Review of Hypermedia and Multimedia, 22(1), 27–57.

致歉：在4月28日推送的第六期“来”读书中，由于编辑的失误，错放了书籍封面，本次推送已修正该问题。如造成不便，敬请谅解！

掌握一手测评讯息

学习最新测评手段

长按关注外研测评

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

来读书 | 第六期：计算机辅助语言测试的发展、成就、现状与展望

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

来读书 | 第六期：计算机辅助语言测试的发展、成就、现状与展望

您可能也对以下帖子感兴趣