其他
LLMs评估综述-A Survey on Evaluation of Large Language Models
写在前面
大家好,我是刘聪NLP。
好久没有在公众号上发布内容啦,并不是停止了创作,只是一直在知乎上更新,懒得在复制一份。但下半年主打勤奋,准备将逐步将知乎内容进行同步。
今天刷到了一篇大型语言模型评估综述的Paper-《A Survey on Evaluation of Large Language Models》,只感叹,不仅大型语言模型卷的厉害,评估体系也是同步在卷。
个人觉得这是个好事情,不同评估系统侧重点不用,可以充分挖掘LLM的潜在能力,从多种角度来分析LLM的优劣,但请不要以打榜为目的来训练LLM。
Paper: https://arxiv.org/pdf/2307.03109.pdf
Github: https://github.com/MLGroupJLU/LLM-eval-survey
该篇综述主要汇总了大型语言模型在进行评估时,一般评估什么内容、在哪儿进行评估和如何评估。下面内容均参考该论文的Github,并且作者也表示会持续更新,请感兴趣的同学同步关注。
评估什么内容
Natural language processing
「自然语言理解」
Robustness, ethics, biases, and trustworthiness
「鲁棒性」
Social science
Natural science and engineering
「数学」
Medical application
「医学问答」
Agent applications
Other applications
「教育」
去哪儿进行评估
如何进行评估
自动评估
人工评估
请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。