查看原文
其他

产业调研:一线专家眼中的ChatGPT

国君计算机 计算机文艺复兴 2023-02-27

产业调研系列

技术热点——ChatGPT基本情况


2022年年底OpenAI发布了ChatGPT聊天机器人,它从各个层面给人的信息的体验感觉,最典型的是这个机器人能和人进行自然语言的交流,可以以假乱真,甚至幽默风趣的反馈。并且在与人员之间的这种交往过程中,还能根据人的指令去实现多种功能,甚至能编写程序最关键的代码,甚至可能替带程序的代码工作。模型发布以后,我们得到的信息是,模型的测试现在是免费的,但在登录、验证的问题上国内外环境有区别,国内比较难实现,他们的ChatGPT的日活用户的增长情况我们很难实现。同时,微软作为其主要投资方可能投资近100亿。如果这笔资金成真,OpenAI的估值可能达到290亿。


为什么ChatGPT这么火?


我把它归结成三个方面。第一,ChatGPT的测试体验超乎人的想象。尤其是有影响力的两个人,比如马斯克评价称ChatGPT 好得吓人(scary good),比尔盖茨评价ChatGPT不亚于PC操作系统。


第二,从国内获取信息的角度讲,实际上是有衰减的。在衰减过程中可能来自社环境爆满、网络方面的限制等,甚至我们从技术角度上去进一步深究这究竟是什么东西,他们可能在哪开发,我们所有想接触的人越想接触越接触不上,接触不上的部分就有超强的想象空间。再加上媒体的推波助澜ChatGPT就火爆起来了。


第三,技术角度上看ChatGPT怎么来的?(1)从人工智能来讲,最早的是机器学习,即面对一些数学原理或者识别做一些分类、线拟合等,这是标准最常用的通过计算。


(2)神经网络,即通过网络去模拟人的神经元连接关系。


(3)2017年左右谷歌提出的Transformer模型,它的最大特点它利用了注意力机制,建立注意力机制来实现词语之间的重点区分并快速建立关系。


有了这个技术以后紧接着就出现了GPT,依次有GPT-1、GPT-2、GPT-3,这些都是文本的文字的语言模型,而这个也有基于图像的多模态的训练过程,叫CLIP,还有没有发布。


多模态指的是跨信息(文本、图片、语音、视频各种信息存在的模态不一样)。实际上我们表达信息的每个模态系统都是相通的,需要有融合。我觉得人工智能融合最高级别的就是主要要融合上人脸识别,看图说话、文字可读。


GPT系列后紧接着是ChatGPT,它在GPT-3之后,介于GPT3和GPT4之间的一个版本。这个是对话集成模型三代的情况。可以讲它的神经网络层数越来越多、它的这里边的多头机制数量越来越多,实向量越来越多,参数也因为网络的人数越多加之立体网状结构而越来越多,训练模型的数据量也从GB级到TB级。


从人工智能思想上面来讲,其实就是GPT-1就是来源最早的是Transformer技术,后边GPT-2增加了提示学习(Prompt Learning),然后到GPT-3增加了元学习这样一些思路。GDP模型最大的特点对应的思想就来自于使用了指示学习(Instruct Learning)和人工反馈的强化学习(RLHF),这里边同时引入了最近策略优化算法(PPO)来推动实现强化学习的过程。提示学习和指示学习,分别来说,提示学习相当于我们做英语试卷的完形填空,指示学习可能主要是我们给一个指令让他写几个版本的语言,每个版本的语言用人工评判写得好还是不好,让模型做出正确行动。这两个方向是有区别的,一个是提示学习是解决模型的补全问题,指示学习是解决模型的反馈效果。


GPT-3的原理过程


GPT-3的网络模型通过指示学习进行三个模型训练。第一阶段是通过原始数据训练一个初始模型,复制模型有了以后,基于初始模型人工给他提供一些途径和任务要求,模型会会给我们输出4~9个自身的语句。


这个语句在经过第二阶段奖励数据这一块时人工会告诉它这9个机器答案的打分排序,形成一个奖励模型的输入,奖励过程输入再去训练一个类似于欠拟合的一个整个函数在反馈到我们的这个情况学习去完成有监督规划。


后边这块的算法实际上是用来解决强化学习到预学习预训练模型训练的反馈敏感问题。这个思路我们打个比方,比如在训练猴子的时候,猴子做对了就给他糖块,做错了就给他一棒,这个模型本身特点跟训练动物是一样的。


模型对人工反馈极其敏感,就像训练动物不能一棍子给打死了,模型如果你奖励不到位也会不积极,不能很好的交互。核心问题就是通过刚才的赋分方式去通过前面几步的这种反馈,去推断应该给模型是“糖”还是给它更高级的“糖”。


ChatGPT相对于GPT-3的优劣势


优势:(1)ChatGPT效果要比GPT-3更加的真实。由于ChatGPT的训练的时候有我们有一定的干预来对模型结果进行修正,对数据进行调控,这种培训能更好感受到人类对这个结果的接受程度,也就更好的获取到一个结果。


(2)ChatGPT的无害性比 GPT-3略微有提高。GPT-3本身已经不错,尤其是在有害性歧视、偏见这个角度处理的比较好,但是ChatGPT我们人为加上一些数据处理,如标注、纠正等,这种优化的结果可能比GPT-3要略微好一点。


(3)ChatGPT具有写代码的能力。为什么机器人也能写代码?第一,在原始数据时,GPT-3做的API里有大量的代码;第二,OpenAI内部员工参与了数据采集工作;第三,通过大量人工标注反馈进行训练的结果。


劣势:(1)ChatGPT会降低模型在通用自然语言处理(NLP)任务上的效果。NLP任务一般有26项,而实际ChatGPT训练大多集中在语言生成模型方向的9个项目。


(2)ChatGPT会有一些荒谬输出。虽然ChatGPT经过一些人类的“把关”,但每个人的价值观等是不一样的。由于模型训练时人类的反馈有限(有40个标注源),模型的纠偏也有限,于是就可能出现荒谬结果。


(3)ChatGPT模型对于指示非常敏感。模型本身的反馈是来源于人的指令、评价,人的限制是决定模型训练走向的原因之一。所以在模型的训练过程中人工给模型的只是数据的数量、种类就决定了结果,如果不充分就可能会导致极端现象。


(4)ChatGPT模型可能对简单概念存在过分解读,因为训练的时候人喜欢选择更长的语句。


(5)ChatGPT对有害指示输出有害回答的问题还没办法完全避免。


ChatGPT的创新与局限


创新点:ChatGPT和之前GPT大同小异,最大的创新在于引入了强化学习和预训练完美融合,形成了一个解决机制。


局限:96%以上是英文,所以训练语言上的差异导致他们在中文回答方面的效果就会大一些折扣。同时,它的训练方向主要集中在语言生成类的9个任务方向,做其他方向的任务会有困难。而且40个外包员工的价值观点决定了模型的价值观,若他们有偏见就会导致模型有偏见。


中美对ChatGPT的做法差异


(1)创新侧重点:美国更偏重于基础研究,侧重理论和新思想的实现。中国的创新优势是喜欢拿来主义,有某个理论之后快速应用落地,拿理论进行实践和迭代,拿思想对应工作和市场需求。这两个特点在科技方面中国和美国恰好是强互补的。


(2)语言:美国是英语为主,但它的产品和文化业都有全球化思维,所以那些除了英语还有其他的语言;而中国基本都是先做中文,基于中文平台后续再去覆盖更多的语种,这是我们的弱点。


(3)数据:美国的数据和技术是相对共享的,且比较重视整理有特点的数据并相互共享数据集等,均基于英语。比如维基百科、原始代码分享等都做得很好。我国基本都是面向我们自己,数据量很大是因为基础比较大,场景比较多,但我们很少会整理成像百科等等这种的语义语言数据集,因此这些数据并不是正真可以利用,并没有形成规模和标准。


(4)算力:主要由两方面决定——硬件和软件。


硬件主要是芯片,除了CPU用的最多的是GPU。GPU的影响因素主要包括:

第一,架构是否成熟。中国需要创新微架构,目前我们均基于现有平台芯片,对其中的各个区域、环节到布局都需要创新。美国目前配套的深度学习框架都来自于西方的框架,这些深度学习框架需要和硬件的流片制作的环节配套。国内大家关心的是会不会受到落后,国内正在做国产替代,我们的微架构也在不断进行创新、生态完善和快速迭代,也有一些头部的GPU厂商也能提供GPU的东西。国内的深度学习框架最开始只有百度的百度飞桨,后来有了腾讯的Porketflow、阿里的EPL等,这些框架需要和芯片结合,甚至可以通过新思想设计新芯片,设计新的整体方法,这都是可以做的。


国内外产业情况

一、国外


(1)微软虽然没有芯片,但深度学习框架和大模型都有。微软是OpenAI的主要投资者,它主要希望整合两个点:第一,智能搜索方面达成快速的搜索;第二,智能办公方面和Office融合,可以实现比如机器人帮忙写稿之后人再进行修改的业务。同时,微软在定制语音、歌词创作方面都有应用。


(2)谷歌有芯片、深度学习框架和大模型,在ChatGPT推出后匆忙推出Bard,大家都认为这是需要调整的。同时,他也在做智能搜索、智能地图。


二、国内

(1)国内最有影响的是百度。百度芯片有昆仑芯、深度学习框架有飞桨(拥有LP文本、视觉、多模态等网点)、大模型方面也有文心。百度在这方面做的比较早,是源于它的定位。他的产品应用中,比如搜索可以用这种方式改造他们的搜索以获得更好的结果,同时智能驾驶、智能地图智能家居等也是他们的应用场景。它的应用可以做一些作画、写作、编剧、APP制作、视频内容创作、翻译等。


(2)阿里也有芯片、深度学习框架和大模型,但它的场景比较少,只有钉钉和阿里云,应用场景上可能会和钉钉这些办公方面结合,或是电商方面做一些广告、海报设计等。


(3)腾讯也比较有实力,它有深度学习框架和大模型,但它的场景也会少一些,基本基于社交平台,可能可以进行一些内容创作、检索、推荐等方面的应用,还需要进一步明确。


(4)360也做这方面,因为可以通过这个方式来改进它的360搜索。它的应用场景主要可能在视频创作等。


(5)科大讯飞在这方面主要做两类模型。一是前端的语音的声学模型,二是后端的语音识别模型。讯飞主要偏前端,他也有影像预训练模型,主要用来做识别。应用场景上它可能聚焦到同声传译。翻译肯定是没有问题的。


(6)京东也是除了芯片没有之外,它的应用场景主要是智能客服,这个场景比较特别,数据也比较集中,并且京东有用户基础。


(7)网易主要的应用在于在线教育里边的翻译等。


从产业角度如何看待ChatGPT模型


(1)ChatGPT在哪些方面有用。有用主要是指的它的记忆能力、理解能力。记忆力是因为它的参数越来越暴增,每个参数都可能像我们的脑细胞一样建立一个信息,这是他的记忆能力。理解能力是指ChatGPT模型根据上下能完成加工。它能知道你下面想干嘛,某句话给它以后,加上人工纠偏和强化学习,它可以理解你要干嘛。但是在用ChatGPT创作的时候,输出的结果是不可解释的。比如大家用它去写作、编剧、作画、翻译,做语音、写代码、不着边际的聊天,也都是它可以去想象的地方,但大家要记住它给我们的结果不是都能让人满意,我们可以把它当做工具用。基于这个情况,比尔盖茨就说拿ChatGPT去解决一些落后地区的数学家教问题、非洲难民的家庭医生问题等环节都有可能。


(2)ChatGPT的真实性。ChatGPT模型的训练方式使得它容易以假乱真。那么这里边就有两个信息板块,一是美国有一个调查称美国89%的大学生都用ChatGPT做作业。可能纽约的教育系统要推进禁止使用ChatGPT。二是学术领域ChatGPT撰写的论文摘要存在骗过专家的现象。


(3)ChatGPT对我们有害还是无害?我们的总结为这几个方面。第一,因为它结果是不可控的,那么我们在人和它交互的过程中可能会产生不正确或诱导性的结果。第二,因为它的结果源于采集的原始数据,如果采集的数据存在偏见,或是人工纠错时存在的偏见等风险,得到结果也可能有害。第三,它生成答案可能存在因为训练的人的价值观带来暴力等方面的问题,是否因为它做网上反馈可能会存在版权侵权的问题。因此,无害性方面也是环境一体化的。


(4)ChatGPT如何真正成熟、可以得到人类认同,应从这几个方面思考和完善机器人的身份定义和管理。我们怎么样定义ChatGPT的产品真正的特点。比如可以考虑它的性别、年龄、性格、语言、是否存在情绪,情绪如何分析、怎么样去让它去安抚别人或自己表达出来、立场、法律问题等,这些也是我们的数字人、元宇宙以后这个环节要清晰化。


ChatGPT这项技术在未来可以应用到哪些有价值的地方


(1)智能客服。这个场景从 ChatGPT推出之前,以前也有一些智能客服的模型。现在这些新方法、新模型能否运用到这个垂直领域,我们把大的方法用的小的场景中去证明它可能是一个比较好且快速见效的计划。


(2)智能搜索。现在的搜索输入一个关键词条件,返回的结果不是一个答案。通过ChatGPT这种方式可能可以得到一个唯一且满足条件的结果。


(3)内容创作。ChatGPT本身具备这创作能力,但还不够完美,我们可以用它来作为辅助的工具。当我们脑子里没有思路的时候,可以让它来引导产生一些基础资料,我们再对基础资料去完善、快速提高整体内容。


(4)教育领域的翻译功能。因为它模型的结构Transformer就是来自于翻译。国内的翻译这块比较弱,因为我们大多数只关心中文而不关心我们做的东西能不能服务其他语种、其他小语种国家。ChatGPT在这块可能可以应用。


(5)家庭场景。我们原来谈的最多是服务机器人,服务机器人和智能客服不同,它不针对客人而是针对家庭,属于家庭中的护理人员。老年人比较闷时可以靠机器人陪聊或机器人的情绪引导来解决或辅导。家庭方面的重点是从心理层面的关怀,而这种心理层面国内比较弱,西方非常成熟,他们有很多成熟的经验任务可以用。随着中国老龄化加重,这个方面是可以期待的。


合规声明:本文节选自国君计算机线下沙龙纪要,属于公开资料,如需纪要全文请后台留言。


  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


ChatGPT相关报告

ChatGPT研究框架(80页PPT)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存