其他
如何让人工智能「不作恶」,为此我们和清华大学教授聊了4个小时
来源丨腾讯科技
采访、编辑丨郭晓静
01
破解“克林格里奇困境”
要靠更敏捷的治理思路Q1:如何降低利用 AI 传播虚假信息和敏感信息的风险?一旦出现虚假信息如何鉴别,并降低对大众的影响?梁正:《互联网信息服务深度合成管理规定》已经2022年11月3日国家互联网信息办公室2022年第21次室务会议审议通过,并自2023年1月10日起施行。另外,《互联网信息服务算法推荐管理规定》已经2021年11月16日国家互联网信息办公室2021年第20次室务会议审议通过,并自2022年3月1日起施行。当前国内算法治理的框架已较为清晰,[1] 但人工智能产业发展尚在早期,相关规定怎样去落实,也还有很多问题需要解决。在人工智能,特别是机器学习领域,最典型的特征是不存在放之四海而皆准的通用解决方案。针对AI传播虚假信息这件事,要分层来看:①目前ChatGPT只是在公测阶段,大家使用它,大部分也都是娱乐性的聊天,它的回应到底有多靠谱,可能并没有太多人去认真追究,顶多会调侃一句”它在一本正经地胡说八道“。②未来,当ChatGPT真正被使用到专用场景的时候,比如法律服务、金融服务的时候,真实性、严谨性问题就变得特别重要。③但是,往往在非专用场景下,大家不太关注它的严谨性和真实性,警惕性放松,更容易被AI迷惑。这时候怎么办?我认为还是要把责任归因到具体的人。首先是使用者,使用了AI的人,应该选择标识出来,这样,看到AI生成内容的人,就可以选择相信或者不相信。另外,对一些老年人、未成年人,自身的辨别能力不足,这时候,不仅仅是使用者,也要对服务的提供方(平台方),提出具体的要求,从我的平台生成的内容,是需要有明确的标识的,平台要做好“守门人”的工作。就好像现在的互联网电商平台,我们把“打假”的责任也给到了平台方,指望用户去打假是不现实的。既然平台提供了自动化的服务,就有义务去帮助用户鉴别和防范。之前网信办强调“要压实互联网主体责任”,这句话落实的一个点就是,当大平台“手中有矛”的时候,更要落实自己的责任。我们看到国外大公司对这点十分看重,我们能注意到,当有新的技术诞生的时候,其实并不需要出台一个专门的规定去约束这种新技术或新产品。因为国外的法律体系中,如果某个公司的产品出现问题,这个公司肯定是第一责任人。Q2:从AI公司的角度来讲,如何把好第一道关?梁正:对公司来讲,最佳解决方案是在产品上标注“识别标记”,数字水印可能是其中一个解决方案,还可以有其它的办法,核心是对平台产生的内容做标注:首先可以识别这条内容是AI生成的、并不是人类创作的;另外,可以识别这条内容是在哪个平台生成的,由哪个用户生成并传播出去的。这样,有清晰的追溯链条,就能更清晰地定义责任人。我们看到OpenAI实际上已经在这样做了,推出了AI识别的工具,所谓的“用魔法打败魔法”。02
AIGC内容的知识产权之争Q5:利用AI生成内容是“高科技剽窃”吗?梁正:围绕AIGC的版权界定问题,一直是争论焦点,目前业界也很难有清晰的答案。本质上来讲,界定是不是剽窃的唯一标准应当是生成新内容后新信息的含量。不同国家关于著作权的法律规定当中,新颖性、创造性都是构成实体要求的基本条件。目前来看AIGC只能发现关联性,并不能发现因果性,所以可能并不能无中生有,创造严格意义上的新内容。但是未来是否量变会引起更大的质变,目前尚很难判定。
03
探索人工智能领域“数据合作”新范式Q6:随着AI产业的发展,数据资源变得无比重要,近日,美国与欧盟达成了一项号称“关乎互联网未来”的人工智能合作协议,这对我们的数据治理有什么启示?梁正:2023年2月,美欧达成了“人工智能促进公共利益行政协议”,拟在预测极端天气和应对气候变化、应急响应、医保事业、电网运行,以及农业发展等五大重点领域带来公共利益。值得注意的是,美欧双方此次在AI领域的合作并不以数据共享为前提,双方在数据流通上仍有所保留。这件事涉及的领域更大一些,我们一直讨论的ChatGPT所使用的底层数据,其实更多的是互联网领域公共、公开的数据。而美国与欧美达成合作协议所讲的数据,则可能来源于公共部门和社会领域,涉及到公共安全、个人隐私等,它与公开数据不同,但这个合作模式对未来的数据治理提供了很大的启示。关于数据的流动,从技术发展的角度来讲,大家最希望能有一个共享的数据池,在上面去做训练肯定效果最好,但是这里涉及到数据安全、隐私、版权、产权等各种复杂的问题。即使美欧在数据问题上经过这么长时间谈判,也并不能做到“共享数据池”美欧现在达成的“联合建模”模式可能是未来的可以考虑的解决方式之一。过去大家的想法是要“让数据动”,但数据一动就会带来一系列问题,如匿名化的问题、数据安全的问题等等。其实从公司的角度来讲,真正要做到匿名化是做不到的,怎么办?现在的方向就是往多方可信安全计算、联邦学习等方向去做。联邦学习的模式,可以让数据不动,只要最后共同建模,得到分析结果,就能解决很大的问题。比如在自动驾驶领域,各个国家都很难去分享交通数据,但是中国的自动驾驶汽车,如何在美国、欧洲安全地行驶?如果用这个模式,不必非要拿到数据,而是通过建模拿到分析结果就可以使用。当然,目前这只是一个可能方向,也涉及到技术实现的问题,比如数据量超级巨大,模型如何部署,这方面也需要逐渐达成共识。欧洲目前在推工业数据空间,有100多个相关的公司企业参与其中,比如西门子这样的企业。欧洲的思路是建立一个没有流动障碍的统一的、安全的数据空间,大家都可以把自己的数据放到数据空间中,有点类似于数字银行,也是思路之一。这个思路在工业领域实施相对更容易,虽然也有类似于产业安全等敏感问题,但个人隐私等方面涉及相对较少。在工业领域,主要关心的是谁用了我的数据,怎么使用的,这个要可追溯,放到数据空间中,意味着数据可以放心流动和使用,后台都会有轨迹记录。美国的解决思路类似于基础公共设施的分层,美国政府开放了大概2000多个高质量数据集,都是基于政府掌握的公共数据。这些数据都是清洗好后再向社会去开放。所以现在去回溯ChatGPT的高质量数据基础,肯定也是基于这样一个更坚实的数据资源。我国近年来一直在推广数据交易所,这种思路可能更适合大宗、同质化的交易。是不是也可以尝试一下,和数字协议、区块链等新技术相结合,借鉴欧美等国家数据治理的经验,获得一些启发?比如上述合作模式完全有可能成为未来的数据合作新范式,现在有一种观点,人工智能到了ChatGPT的出现,才真正进入大规模产业化、工程化实施的阶段。这个时候一定会有专业的数据服务商出现,不再是以场内交易方式出现,而更多是提供专业化的服务。Q7:中国发展自己的AI产业,对数据的需求也会日益增加,如何应对国际的竞争与合作?梁正:中国也有自己的大模型,虽然现在表现还没那么优异。大模型的训练目前确实面临着数据共享、数据安全、隐私保护等各种难题。从大环境来看,也迫切要求我国在国际合作中进行一系列思路上的转变。一方面,我国的数字平台企业要争取走向国际,拓展出更加广阔的发展空间;另一方面,从国家的层面而言,仍然要探讨如何融入全球创新网络,以更加开放的态度寻求国际间的科技合作与交流。而美欧此次合作恰恰提供了数字领域国际合作的一种可参考方案——在各国强调数字主权的大背景下,在数据不流动的前提下通过多方可信安全计算、联邦学习等方式实现对数据价值的共同发掘和利用。
RECOMMEND
推荐阅读
OpenAI给科技行业敲响警钟,中国必须要有自己的“大模型”
未来指北系列
芯行业专家答12个关键问题:中国AI产业发展需要突破哪些瓶颈?
未来指北系列