查看原文
其他

要花多少人和钱,才能撬起ChatGPT ?

澎湃美数课 澎湃美数课 2023-03-24

GPT-4 出炉! 

ChatGPT 迎来重大升级


3 月 14 日,OpenAI 正式发布了多模态预训练大模型 GPT-4。

和前一版 GPT-3 相比,GPT-4 在问题处理能力、逻辑推理能力、支持的模态类型等方面有了质的突破。这意味着,基于 GPT 模型研发的 ChatGPT 迎来重大升级。

ChatGPT,一款自 2022 年 11 月 30 日发布以来,迅速火遍全球的 AI 聊天机器人。它每回答你一个问题,背后涉及到多少人力、算力,以及财力?





写诗?怎么做到


“今天是我和男朋友在一起的第 1000 天,请帮我写一首爱情题材的藏头古诗,每句的开头分别为‘海’‘枯’‘石’‘烂’。”

这是我们向 ChatGPT 提的需求,很快,它在 5 秒内就写出了一首藏头诗,背后有多少人力、算力,以及财力?



ChatGPT 要学会写诗,意味着它需要理解人类的文本语言,这需要从海量的文本数据中不断进行训练。

ChatGPT 基于的是 OpenAI 公司此前研发的大语言模型 GPT-3。从 OpenAI 公司 2020 年发表的论文来看,该公司使用了 45TB 的文本数据,包含了近 5000 亿个单词。这是一个非常庞大的训练规模。

要知道,由谷歌研发,在 2018 年发布的大语言模型 BERT,训练数据的单词量也只是 33 亿。

下一步,AI 将会在如此庞大的语料中进行学习训练。OpenAI 采取的是自回归算法,让 AI 在海量文本中进行自我学习。

比如在这句话中,AI 会根据语句的前几个字,预测下一个字是什么,然后再和实际结果做校对。如此反复,从而理解人类文本语言。



通过不断预测、对比结果、调整参数,这样就得到了一个预训练好的大语言模型。

如此,基本就可以根据我们的需求,写出这样一首诗了。



觉得太肉麻?

ChatGPT如何理解你的需求


现在,让我们再向 ChatGPT 提点需求。

“上面的诗太肉麻了,能不能委婉一点。”

很快,ChatGPT 理解了我们的需求,进行了修订。



这一步又是如何完成的?

最开始只会生成文本的预训练大语言模型,很可能无法理解我们所说的“肉麻程度”。

为了让 AI 学会理解,OpenAI 引入了“基于人类反馈的强化学习(RLHF)”,让数据标注师为 ChatGPT 生成的结果进行评估打分。

比如,这是我们按照最开始的需求,通过重复提问,让 ChatGPT 生成的 5 首藏头诗。数据标注师们会逐一进行肉麻度打分,反馈给 ChatGPT。

基于这些反馈,ChatGPT 也就学会了什么样的诗歌会更肉麻,什么样的诗歌会更委婉。



我们现在每一次和 ChatGPT 的交互,其实也是一种对生成结果的反馈。

今年 1 月末,ChatGPT 的月活用户已经突破了 1 个亿。在用户和 ChatGPT 聊天的同时,ChatGPT 也在以这种类似众包的方式,海量接收到反馈,以迅猛姿态,快速成长。



ChatGPT,要花多少钱?


相较于人力成本,真正要撬起 ChatGPT 的,还有更为高昂的算力、财力成本。

这是英伟达 V100 GPU,每一块价格几万元。

据 Lambda 实验室预测,训练一次 GPT-3,如果只使用一块 V100,需要耗费 355 年。而用来训练大语言模型 GPT-3 的超级计算机,就搭载了一万块这样的 GPU。

据媒体报道,GPT-3 整体训练成本可高达约 8400 万元人民币,远超其他大语言模型。

在国盛证券 2 月 13 日发布的研报中,以 ChatGPT 目前每日访客数量来计算,假设每天每人提问 10 个问题,则每天总共约有 2.5 亿次咨询量。

要满足当前的访问量,每天至少需要 30382 片 GPU 同时进行计算。而这些设备的采购成本就高达 7.59 亿美元,约合 52.9 亿元人民币。



除此以外,研报指出,按照美国平均工业电价进行预估,每日的运行电费将高达 4.7 万美元,约合 32.8 万元人民币。

让我们重新梳理一下,像这样子,ChatGPT 每次帮你生成一首爱情诗,背后经过了多少算力、人力及财力。

算力:超过 4 万片GPU的需求。

人力:无数的标注团队、1 亿用户的实时交互反馈。

财力:接近 60 亿元人民币的经济成本。

现在,你还觉得让 ChatGPT 回答你的问题,非常轻易吗?




指导| 张泽红 吕妍

编导| 龙慧

文案| 赵佐燕

制作| 龙慧 王煜

拍摄| 朱伟辉 曹俊杰 江海啸





往期推荐


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存