查看原文
其他

是我们在训练大模型,还是大模型在训练我们?

刘聪NLP NLP工作站 2024-04-07

写在前面

大家好,我是刘聪NLP。

不知道大家有没有发现一个问题,我们越来越ChatGPT化了。引发了我的思考“是我们在训练大模型,还是大模型在训练我们?”

起因是我在知乎上的一个回答被检测出包含AI辅助创造内容,因此答案被折叠。

虽然我及时联系知乎小管家进行了恢复,但我深深意识到了一个问题,由于一直在构建大模型所需的训练数据,一直在训练大模型,一直在对大模型进行测试。我已经被同化了,在我的潜意识中已经形成了一套创造框架。我对行文的审美已经固定在具有强逻辑的模型内容上。

当在检索框里输入“你现在是一个代码专家,请问代码运行出现下面报错信息:Runtime Error: element 1 of tensors does not require grad and does not have a grad_fn,是什么原因?”时,我现在已经被大模型深度同化了。从思维到行事,从内在到外在,完全大模型化。

从何开始

当我们依赖某一个或者某一些模型的时候,我们就正在改变我们的习惯。比如这是我用SD画的末日+机器人:

这是别人用SD画的末日+机器人:

因为我不会写一个好的prompt,所以我很有个性,但当为了通过大模型获取更好的效果,我们会参考最优的提问方式。渐渐我们对相同问题的提问、思考、获取答案的内容也越来越趋同。

「那么你是否已被AI模型同化,更深层次的哲学问题,人类思维、风格差异如果趋同后会有哪些影响?」

造成影响

目前存在一些AI生成内容的检测工具,例如GPT-Zero、DetectGPT、中英双语ChatGPT检测器等。一般通过机器通过判断回复的困惑度、高频词组合、表达方式等特征来判断。

GPT-Zero: https://gptzero.me
DetectGPT: https://arxiv.org/abs/2301.11305
中英双语ChatGPT检测器: https://zhuanlan.zhihu.com/p/598395917

中英双语ChatGPT检测器的论文中指出:

  • ChatGPT的回答通常严格地集中在给定的问题上,而人类的回答是发散的,很容易转移到其他话题。
  • ChatGPT提供客观的答案,而人类更喜欢主观的表达。
  • ChatGPT的回答通常是正式的,而人类的回答则更口语化。
  • ChatGPT在回应中表达的情感较少,而人类在语境中选择了许多标点和语法特征来传达自己的情感。

但可以想想,如果人类与大模型内容输出极其相似,那么检测器就将更难区分是由AI创作还是人类创作,对于未来内容审核会带来严重影响,并且人类对于互联网上内容的真实性将更难判别。

苏神的“当生成模型肆虐:互联网将有“疯牛病”之忧?”也指出,人类生成模型的频率越来越高,将会导致互联网上模型创作的内容越来越多;但生成模型也在进行着迭代更新,所用数据一般来自于互联网,那么就会出现以后的训练集中模型创作的部分占比将会越来越高。由于模型生成结果往往为了保证数据质量来减少多样性,最终数据内容会越发单一,所用词汇越发集中。

当生成模型肆虐:互联网将有“疯牛病”之忧?
https://kexue.fm/archives/9687

随着人们对大模型的依赖逐渐增加,恶性循环就出现了,甚至会出现人类语言退化。

「那么大模型继续发展之后,2022年是否将成为AI数据元年?」

如何应对

现在各大厂已经进行对AI创作进行了部分处理,比如,知乎对AI创作打上一定的标签,如若不然,将会被给予一定的违规处罚;百度对检索出AI创作内容,会对其排序进行权重降低处理,等等等。并且OpenAI、谷歌等七家 AI 头部企业承诺,将为人工智能内容添加水印。

OpenAI、谷歌等七家 AI 头部企业承诺,将为人工智能内容添加水印
https://www.zhihu.com/question/613301491

这样,大模型制造者可以知道哪些数据是AI创作的,普通人也可以知道哪些内容由AI生成。可能规避一些同化信息吧。

PS:本人在3月份写ChatGPT-所见、所闻、所感一文时,就对AI检测给予厚望。但目前还是任重而道远。

ChatGPT-所见、所闻、所感
https://zhuanlan.zhihu.com/p/605331104

「如何更好地利用魔法打败魔法,AIGC的高效检测。」

总结

目前是我们在训练大模型,还是大模型在训练我们?欢迎大家讨论!

  • 你是否已被AI模型同化,更深层次的哲学问题,人类思维、风格差异如果趋同后会有哪些影响?
  • 大模型继续发展之后,2022年是否将成为AI数据元年?
  • 如何更好地利用魔法打败魔法,AIGC的高效检测。

请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

往期推荐:

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存