查看原文
其他

如何看待微软最新论文揭秘ChatGPT参数量只有20B?

刘聪NLP NLP工作站 2024-04-07

写在前面

大家好,我是刘聪NLP。

昨天下班的时候,群友在交流群中发了一张截图,然后群炸了。

什么ChatGPT只有20B参数?

Paper: https://arxiv.org/pdf/2310.17680.pdf

如果消息属实,让我们简单聊一聊,省流版:
1、国内外大模型差距比预估的要大;
2、做大模型落地的企业信心应该更足;
3、国内后面可能大多数企业都做20B左右的模型;
4、LLMer,在效果不好的时候,少了一个借口。(借口-1)

国内外大模型差距比预估的要大

一直都以为ChatGPT的参数量起码要在100B以上,但没想到只有20B。

「但值得注意的是,这里所谓的ChatGPT特指gpt-3.5-turbo接口。」我们理性分析一波,gpt-3.5-turbo是经过升级&加速的版本(效果也不如之前),所以应该与一开始的ChatGPT不是同一模型,那么20B也不是没有可能。

并且gpt-3.5-turbo接口的价格是text-davinci-003接口(默认175B,猜的)的十分之一。

如果仅有20B的话,那么国内的大模型与GPT系列模型的差距可能比想象中的还要大,毕竟开源同等级的模型真的打不过(虽然部分榜单遥遥领先,但真实体验真不如)。

做大模型落地的企业信心应该更足

如果真的只有20B,并且达到现在这种效果。那么国内做大模型落地的企业,应该更开心,信心更足。因为20B量级参数的大模型,无论是训练,还是部署,对于企业来说都是可以承受的

已经不是那么遥不可及。

并且不是高通骁龙CPU都能运行13B的大模型了嘛。

图片来自:https://zhuanlan.zhihu.com/p/663281324


国内后面可能大多数企业都做20B左右的模型

20B参数就足够的话,那么可能大多数企业就不会再往更大追赶了。(毕竟现在很多还是在做13B左右的模型,真正超过50B的都不多)

做更大可能也是徒劳,不过更大模型可以帮助小模型做蒸馏,但成本也是巨大的,呈指数级增长。从活下来的层面来看,做到20B就够了。

但依然要有梦想,现在正在做超大规模的大模型的企业(百度、百川、讯飞等等等)依然会往极致追赶。

而我才是大多数中的一员。

LLMer,在效果不好的时候,少了一个借口

将所有做大模型的算法工程师称为LLMer,那么我们今后效果不好,就不能再说我们参数量不够了。从原来的参数和数据都没法跟别人比,就进变成了数据没法跟别人比。

借口-1。

PS:现在真的openai有一点风吹草动,国内外大模型格局都可能发生翻天覆地的变化。

最后

欢迎多多关注公众号「NLP工作站」,欢迎加入交流群,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

PS:新书已出《ChatGPT原理与实战》,欢迎购买。

往期推荐:

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存