传播中的离身与具身：人工智能新闻主播的认知交互

Original 於春国际新闻界 2021-09-21

於春，华东师范大学传播学院副教授，美国马里兰大学访问学者。

本文系上海市哲学社会科学规划一般课题”具身认知视域中人工智能新闻播报优化研究“成果。

一

问题的提出

智能化是席卷全球的又一波科技浪潮。2018年11月，新华社发布世界首位以真人新闻男主播为原型的人工智能“AI合成主播”，2019年3月，新华社人工智能新闻女主播上线。这既是新闻播报领域的一个现象级革新，也是认知科学与人工智能领域中离身认知（disembodied cognition）与具身认知（embodied cognition）的某种交互融合。本文试图予以探索：人工智能新闻主播在其演进中如何践行离身认知、具身认知及其交互应用？目前存在哪些问题？可能的优化进路是什么？从自适应、自组织、自涌现的媒介进化可能来看，人工智能与人类智慧未来如何共处？

二

离身认知的渊源、成就与反思

离身认知（disembodied cognition）是第一代认知科学的主导思潮，也是人工智能的理论来源，着重强调认知在功能上是能够脱离人的身体而独立存在的。离身认知的思想渊源可以追溯至古已有之的身心二元论。事实上，身心二元论虽早有思想成就，但也存在着某种现实困境，那就是只要接受身心二元论，就不得不面临类似的非此即彼的艰难选择。准确来说，人工智能离身的哲学假设、胡塞尔的现象学及马文·明斯基（Marvin Minsky）的表征主义框架理论等，均为苏格拉底、柏拉图（Plato）、笛卡尔以降的西方理性主义传统思维的某种延续。

离身认知同时也意味着认知是可以计算的。以“图灵机算法可计算”为基础，“认知可计算主义”逐渐成为认知科学领域的研究纲领（刘晓力，2003）。由于大脑科学、复杂性科学和计算机技术的不断发展，认知科学也经历了不同工作范式的转换和竞争：从最初的符号主义到联结主义再到行为主义，从最初的问题求解程序发展为人工神经网络及至人工生命的研究，从符号计算推进为神经计算乃至进化计算（阎平凡，张长水，2002：357）。事实上，这些范式的不断转换和相互竞争，某种程度上来看正是源于对“认知的本质是计算”这一强纲领的深刻挑战。虽然“计算主义”获得了显著的成就，但是在认知科学和人工智能领域的进一步突破长期以来困难重重。

关于离身认知和“计算主义”的反思主要集中于：

哲学上的反思。人类的大脑、心灵和当前的计算机性能有着“本质差别”，大脑的某些功能或许如同一台计算机，但是心的本质不是可以计算穷尽的，这是更深层和更高级的智能活动。虽然计算机程序可以按照语法规则定义，但其本身不足以确保语义的微妙呈现和心的意向性。当然，对于“机器永远不能超越人心”这一论点，库尔特·哥德尔（Kurt Gödel）倒是不反对用其不完全性定理作为部分论据。然而哥德尔也曾指出，要推导出这一强硬结论还有待附加两个哲学假定：人心（mind）没有物质载体；人类理性提出的问题人类理性一定能够解答（王浩，1997：472-474）。

复杂性科学与生物学的反思。大脑的每一部分都是特异化的，整体心智活动是在其交互作用中得以完成，这与当前计算机存在本质不同。“心脑活动的基础符合非力相关性原理，呈现出一种依存性的、内在的、整体自涌现的形式，它并非一个完全一致的系统”（周昌乐，2000：256-264）。因而需要引入复杂性科学和生物学维度，而不是理性主义、物理主义和还原主义的极端化。另外，人的心智仍在不断进化，现代科学对于大脑的功能、意识的深层、心的本质等目前仅有极为肤浅的认识。在这种不多的认识下，试图用哥德尔定理来推断计算机永远不能或永远能超越人类心智，为时尚早。

计算机技术的反思。有些专家认为，如果计算机集成电路中包含的基本元件及其连接规模，能够大大超过大脑的神经元件和连接规模，计算机就有望如同大脑那样自涌现出高级心智。但是密尔本（G. J. Milburn）也曾指出，无论量子计算机的规模和速度多快，也仍然是以“丘奇—图灵”论题为理论基础，仍然是一种基于量子图灵机的计算机。因而，期望以量子计算机来模拟人类智能并且自涌现出高级心智，还是没有脱离“认知可计算主义”研究纲领（刘晓力，2002）。即使计算机程序能够产生自涌现的特性，以切廷（G. Chitin）的算法信息论来看，计算机的复杂性本身仍有相当大限度，希冀计算机的复杂性实现人类心智的复杂性尚有相当距离，而复杂性之复杂性本身又是另一大难题（刘晓力，2003）。

作为认知科学与人工智能在新闻播报领域的实践应用之一，人工智能新闻主播本质上难以脱离也基本遵循着离身认知、“计算主义”这一认知进路。人工智能新闻主播尝试离开真人主播的身体，试图通过不断更迭的计算机技术及算法程序来构建形象、模拟行为、复制功能等。

三

具身认知的兴起、源流与主张

具身认知（embodied cognition）被视为“第二代认知科学”研究的新进路。“第二代认知科学”的标志性倡导为：身体是心智的基础，身体在人类认知及相关社会活动中具有首要作用。

梅洛-庞蒂在《知觉现象学》中则区分和界定“客观身体”与“作为世界中介的身体”，成为具身认知最直接的思想来源之一（李其维，2008）。梅洛-庞蒂（1945/2001：538-540）指出：身体最为直接地“在世界中存在”，“身体本身在世界中，就像心脏在肌体中”。“不通过身体的经验，就不可能理解物体的统一性”，“物体的综合是通过身体本身的综合实现的”，而对于外部事物的知觉“直接就是我的身体的某种知觉”。

德雷福斯（Hubert L. Dreyfus）（1972：177-178）认为：“当我们栖居于世界中时，与我们同在并且根植于它们指称情境的有意义对象，不是储存在我们的心中或脑中的世界模型；它们就是世界本身。”这种思想即是海德格尔的“在世界中存在”思想，“在世界中存在”也是最基本的智能活动，亦是启发斯坦福大学计算机科学系教授威诺格拉德等人工智能专家的海德格尔式人工智能（Heideggerian AI）。德雷福斯认为：认知主义最大的缺点之一就是离身认知（disembodied cognition）。相关哲学论据使德雷福斯（1972：xi-xii）看到：“数字计算机由于无身而导致的局限性，比由于无心而导致的局限性更大。”德雷福斯对优化人工智能的第一个建议就是：要重视身体在智能行为中的作用。德雷福斯的人工智能身体观，源于梅洛-庞蒂在知觉现象学中的核心概念：身体。梅洛-庞蒂（2012：431）还将存在落实到了身体上，以克服海德格尔“在世界中存在”的形式化缺点：

如果主体在情境中，甚至就是情境的一种可能性，这是因为只有当主体实际上就是身体，并通过这个身体进入世界中时，才能实现其自我性。在我反思身体的本质时，如果我发现身体与世界的本质相关联，这是因为我作为主体性的存在，就等同于我作为身体的存在以及世界的存在。

德雷福斯对海德格尔的存在主义和梅洛-庞蒂的身体现象学的强调，与认知科学中的具身认知范式关系紧密。人工智能研究重镇麻省理工学院的著名机器人学教授罗德尼·布鲁克斯（Rodney Brooks）（1999：167）提出：

智能系统的具身（embodiment）是至关重要的，而这有两个原因。首先，只有具身的智能体，才可成为能够完全应付真实世界的智能体。其次，任何内在符号系统或其他系统，都只有通过物理根基（physical grounding），才能得到立足点并使系统内部运行的进程具有意义。

斯坦福大学计算机科学系教授、微世界研究中著名的积木世界程序“SHRDLU”设计者特里·威诺格拉德（Terry Winograd）（2006）认为，“关键点不在于模拟智能的内在运作，而在于人与变动环境的交互。”他在与德雷福斯的会谈中以及相关阅读后，了解到海德格尔哲学与计算机系统设计的关系意义，放弃了对于知识表征语言的研究，而转向人机交互领域，由此倡导存在主义的设计进路。瑞士苏黎世大学人工智能实验室主任罗尔夫·普菲尔（Rolf Pfeifer）（1999：xvii）确认，由于海德格尔的存在主义、梅洛-庞蒂的身体现象学、德雷福斯的人工智能身体观及威诺格拉德等启发，他放弃人工智能的离身进路，而转向具身进路。普菲尔采用“感觉-运动”回路，去替换先前人工智能的“感觉-模型-计划-运动”回路。“模型-计划”环节的去除，意味着表征模式的去除，智能体通过身体传感设备直接运动并与环境互动。比如，让机器人经由中央凹处理，而不是先前的外在世界表征模式，来凝视物体，机器人“移动头和眼，使物体出现在中央凹陷——视网膜的高分辨率中心的过程”（普菲尔等，2007/2009：86）。这类具身设计一定程度上可以克服模式识别的难题，大大缩减表征模式的庞大计算量。比如，机器人在完成抓取玻璃杯任务时，如果机械手是用坚硬又欠缺弹性的材料制成，那么其控制程序就可能非常复杂，而如果采用近似于自然肌肉的人工肌肉时，问题得以大大简化。许多原本由控制程序执行的计算任务，由材料代替了。

四

人工智能新闻主播的认知交互：

离身认知、具身认知及持续创新

人工智能新闻主播诞生之前，曾经出现一波虚拟主持人热潮，开始萌动人工智能在新闻播报领域中的离身认知、具身认知及交互应用。互联网发展初期，能够播报新闻的虚拟主持人“安娜诺娃”于2000年4月由英国报业联合会新媒体公司推出。其后在一些国家相继出现了一系列虚拟主持人，如中国“Go girl”“言东方”“伊妹儿”和“江灵儿”，美国的“Vivian”，韩国的“Lily”等。虚拟主持人的离身认知探索主要体现在：试图离开真人主持人身体去传播信息；基本依靠真人线性配音，尚未实现如今可以离身重组的智能语音播报，也未实现如今可以离身重组的智能视音频播报。

人工智能新闻主播进一步探索人工智能在新闻播报中的离身认知、具身认知及交互应用。2018年11月，新华社发布世界首位以真人男主播为原型的人工智能“AI合成主播”并在随后命名为“新小浩”。2019年3月，新华社采用真人女主播为原型的人工智能新闻主播“新小萌”上线。而在此之前，2018年4月日本放送协会（NHK）推出人工智能新闻主播“Yomiko”，2017年6月英国独立电视（ITV）《早安英国》中推出机器人主播“Sophia”。英国广播公司（BBC）广播四台《今日》节目甚至考虑用机器人主播模仿真人主播的风格并主持采访环节，采访内容是人工智能的未来。人工智能新闻主播纷至沓来，其离身认知主要体现在：尝试离开真人主播身体的自然线性播报，通过提取真人原型在新闻播报中的语音、唇形、表情、动作和形象等，运用智能合成技术和深度学习等联合建模数据库，将所输入的中英文文本非线性自动生成相应内容的智能音视频，试图展现与真人主播类似的新闻播报、信息传播效果。

需要特别关注的是人工智能新闻主播的具身认知及相关交互，可能成为人工智能新闻主播持续创新的关键要素。如前所述，具身认知被视为“第二代认知科学”研究的新进路，认知科学的具身转向及物质基础同时也呼应着整个社会科学中的物质性转向（Apperley & Jayemane，2012）。具身性、情境认知、认知发展和动力系统成为“第二代认知科学”的四个典型主张，由此奠定了“第二代认知科学”的基础共识（李恒威，黄华新，2006）。四者当中，具身性（embodiment）被看作“第二代认知科学”最重要的核心概念，情境认知、认知发展和动力系统也都与之密切相关。

其一，人工智能新闻主播的具身性（embodiment）。“回到生物学中去找约束”（李恒威，黄华新，2006），意指大脑活动根本上不同于计算机活动，人的心智来源于温软的肉身而非冷硬的机器，天然自会受到身体、生理、大脑、神经等约束。综合考量传播效果比如情感上的亲和力、可信度、人格化和权威性，采用真人主播身体屏幕形象的智能播报，或许优于虚拟主持人时期的动画形象，以及当前智能主播时代的动画形象或者机器人身体屏幕形象——英国独立电视（ITV）人工智能新闻主播“Sophia”，其机器人身体及屏幕形象曾被观众认为有“恐怖”感，其后也折射人工智能与人类智慧未来如何共处。另外，中国、日本和英国的人工智能新闻主播都有各自命名，由此带来的人格化、身份认知或许能稍许弥合人工智能的受众认知分歧、社会认知差异。需要注意的是，是否采用真人形象其实无关乎具身认知，比如平衡车只是行驶设备并无人体形象，但是它通过感应人体重心移动来驱动、变速和转向，还能通过限速来培养初学者，即为具身认知、具身性和人机交互的某种应用。具身认知与具身性的蕴含和应用广阔，人工智能新闻播报的具身性及其应用优化亦有更多期待、更多想象力。另外，人工智能新闻主播的具身性还体现在围绕身体交互展开的情境认知、认知发展与动力系统等。

其二，人工智能新闻主播的情境认知（situated cognition）。具身心智实现于情境的约束中，认知必须互动呼应于情境的状况和变化，而不是对于情境的单向投射（李恒威，黄华新，2006）。例如新华社人工智能“AI合成主播”，文本“一度创作”和新闻播报“二度创作”有很大不同，文本“一度创作”中没有直说、不便直说的言外之义、新闻蕴涵，有经验、有思想的真人主播在新闻播报的“二度创作”中可以采用停连、重音、语气、节奏、情景再现、内在语和对象感等方法呈现出来。不同真人主播对新闻蕴涵的理解判断不同，播报中的“二度创作”也不同。微妙之处正是新闻播报的准确性、个性化、创造性之处，也是不同真人主播在业务水平上的重要区分标准之一。同一文本不同真人主播的新闻播报艺术性尚且如此，不同的栏目、平台、地域、受众、时机呢？因此，尽管新华社人工智能“AI合成主播”诞生即突破，迈出了关键一步，但是在不同情境中的认知互动有待加强。情境认知在很大程度上决定着新闻播报更高级的艺术性、创造性。

其三，人工智能新闻主播的认知发展（cognitive development）：一个直观的事实是，认知不可能完全由遗传来决定，人类的认知能力是在复杂情境中起源和发展的。如果说具身人工智能的目标不包括模拟和解密人类智慧，那么目前它是相当成功的；如果考虑到它不仅试图模拟人类的部分智慧，还希望发现人类智慧或生命的真正奥秘，那么现有的具身人工智能仍然相当初级（徐献军，2017）。比如，上文讨论到当前人工智能新闻主播虽有文本也难以进行播音“二度创作”。

其四，人工智能新闻主播的动力系统（dynamic system）。认知是一个系统的动力涌现，同时涉及大脑、身体和世界之间相互复杂作用，而不仅仅是大脑中的一个孤立事件。具身心智的认知活动同时和情境相耦合，动力系统即是探索此类耦合情况下认知发展进化的动力机制。比如，目前具身人工智能体通过“感觉-运动”的反馈循环来获取的意义，仍是外赋的，而非内生的（徐献军，2017）。约拿斯在其控制论批判中指出：反馈循环不是有机体有目的行为的充分条件。自动搜索目标的鱼雷和觅食的兔子二者之间区别在于鱼雷的反馈循环运行不运行皆可，而兔子的反馈循环必须始终运行，因为这就是它的存在方式。换言之，鱼雷反馈循环的开闭运行取决于外界使用者，而兔子则取决于自身（生存压力下必须觅食）；兔子觅食行为的意义是自生的，而鱼雷搜索目标的行为意义是外赋的（Froesea & Ziemkeb，2009：473）。当前具身机器人仍然不能在世界中获得自生的意义。人工智能新闻主播的自发性、主体性与能动性也有限，目前还无法实现真正自主的采写、编评、播报，而是由其后的人类团队主导完成。无论是智能语音合成技术，还是智能视音频合成技术，都远远未能达到自组织、自适应、自涌现的高级心智，与人类智慧程度的自主采写、编评、播报相去甚远。或许，随着认知科学与人工智能的进一步发展，包括离身认知、具身认知及其交互应用的进一步突破，人工智能新闻主播的自发性、主体性与能动性会而逐渐产生？人工智能新闻主播的自发性、主体性与能动性，这既是科学问题，甚至是带有一定科学幻想色彩的问题，同时也是法律规制、伦理哲学问题。

五

人工智能新闻主播的优化可能：

离身认知、具身认知与高阶交互

人工智能新闻主播的相关问题难以穷尽，正如当前的认知科学与人工智能、离身认知与具身认知、“计算主义”与“新计算主义”甚而整个科学也难以穷尽奇妙精巧、广阔深邃的人类世界本身。然而，问题求解、好奇心亦是人类不断认知自身、不断向前发展的原动力。

离身认知需要不断向前，人工生命和进化计算存在可能。早期的人工智能研究主要集中于逻辑推理的方法和程序规则的系统，在此之后更多认知科学家不断走向不限于逻辑推理的方法和程序规则的系统，转而进入以非线性科学、细胞自动机、形态形成和遗传等理论为基石的人工生命研究，经由计算机来生成自然生命系统行为的仿真系统，通过信息数学模型来模拟进化的遗传算法，力图了解真实世界中的生命和生命过程（阎平凡，张长水，2002：357）。人工生命的倡导者主张，生命是系统里各个不同组成部分及相应功能的有机化，在物理机器上能够用不同方式创造这些功能的各种特性，进化本身可以视为一种探索试验的复杂过程，最重要的是生物本身由其自组织性、自适应性造就，并不在于是否由有机分子组成（波素马特尔，1998/1999：200）。由此，人工生命倡导者希冀就不是要再造一个大脑，而是借助遗传算法不断进化出一个大脑。目前以人工生命为代表的行为主义被认为是极有前途的研究范式，重点强调复杂性科学和“人工有机体”的自组织、自演化、自涌现特征。虽然“生命的本质就是计算”未必都能认同，但是人工生命及其进化计算成果的确是不断给认知科学变迁带来新启示。

具身认知也需要不断向前，不时回顾原初也是一种思路。布鲁克斯在所著《没有表征的智能》中提出，人工智能在现有计算机理论基础上，尚未充分反映生物组织的智能，人类和其他动物是通过不断学习来调整行为以便更好地适应环境从而认知的（Brooks，1991）。由此，我们似乎可以循着进化的阶梯由低而高地寻找智能的源头。布鲁克斯（1991）认为：“当我们研究了非常简单的低等智能时，发现关于世界的清晰的符号表征和模型事实上对了解认知起到阻碍的作用，这表明最好以世界本身作为模型。”布鲁克斯还试图用人工造物系统来模拟场景、环境、情境。需要注意的是，不时回顾原初并不等于回到纯粹的还原主义、物理主义和理性主义，而是有必要融合复杂性科学和生物学眼光。与此同时，仍然需要回答前述哥德尔的两个哲学问题：人心（mind）到底有没有物质载体？人类理性提出的问题人类理性是否一定能够解答？计算机的复杂性本身仍有相当大限度，希冀计算机的复杂性实现人类心智的复杂性尚有相当距离，而人类智能的自涌现、自适应、自演化或许是复杂性之复杂性其后突现的简单性。

离身认知与具身认知需要不断走向更高阶交互，以解决更高级的人工智能认知问题。在持续进行的适应性生存演化中，人类认知的不同方面与不同水平彼此协调、相互促进从而共同形成一个“统一的姿势”，而不是相互独立、彼此排斥和截然分开的。既然人的“统一的姿势”是由不同方面与不同水平的认知共同形成，在人工智能认知上也不必在两代认知科学之间做出非此即彼（either-or）的两难取舍，而可以采取亦此亦彼（both-and）的交互融合（Clancey，1997：225-242）。若非第一代认知科学家严格秉持计算思想，也不会有计算机、互联网、人工智能等如此巨大的当代成就。恰如克兰西的看法：“最重要的是，我不认为描述的模型是错误的而情境认知是正确的。相反，我的宗旨是揭示不同的观点如何可能调和。我发现这样的观点常常是有益的......”（Clancey，1997：3）更进一步，亦此亦彼（both-and），而不是非此即彼（either-or），适用于离身认知与具身认知的和谐共处，也有益于未来社会人工智能与人类智能的协调共存。“日益崛起的技术力量和日益提升的人类智慧之间进行的不是一场竞赛，而是一个携手并进相互扩容的过程。”（殷乐，2016：24）

本文系简写版，参考文献从略，原文刊载于《国际新闻界》2020年第5期。

封面图片来自网络

本期执编 / 彤昕

订阅信息

全国各地邮局均可订阅《国际新闻界》，国内邮发代号：82-849，欢迎您订阅！

您也可通过下方二维码或网址https://weidian.com/?userid=1185747182，进入国际新闻界微店，购买当期杂志和过刊。

您还可访问《国际新闻界》官方网站 http://cjjc.ruc.edu.cn/ ，免费获取往期pdf版本。

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

传播中的离身与具身：人工智能新闻主播的认知交互

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

传播中的离身与具身：人工智能新闻主播的认知交互

您可能也对以下帖子感兴趣