AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针_

AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针

2023/12/25 13:23红星新闻财经官方帐号/红星新闻财经新闻中心新媒体平台来自四川省

12月28日，2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会（下称“大会”）将在成都市正式举办。

一方面，大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”，将对国内大模型开展评测工作，深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面，头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂，共同探讨行业发展趋势，搭建产业上下游沟通平台，推动大模型技术的进步。

大会举办前夕，红星资本局对话了香港科技大学计算机系助理教授何俊贤，他主要研究关注大语言模型的efficient adaption, factuality, reasoning, evaluation等方向。何俊贤担任ACL和EMNLP的领域主席，论文入选ACL 2019最佳系统论文提名、ICLR 2022最有影响力论文榜单（paper digest），曾获百度AI博士奖学金、AI华人新星百强等荣誉。他指导学生发布了大模型的中文权威评测基准C-Eval，发布以来下载量超过50万次。

何俊贤表示，大语言模型距离大众很近，新技术很快会被大众感知。他们工作的终极目标，是实现真正意义上的强人工智能。

以下是对话实录：

红星资本局：ChatGPT很受欢迎，也正是你研究的语言方向大模型。如何来衡量一个大语言模型的智能程度？

何俊贤：真正的智能，是用户已经分辨不出，对面到底是一个专家，还是一个机器。

真正的智能不只是闲聊，比如推荐商品，询问今天的天气，还可以问关于历史数学物理的各种知识，甚至可以上传一道考试题，直接问这道题怎么做，也可以帮你写代码，帮你写新闻稿。

如果这些方方面面的事情都可以做得很好，感觉很聪明，可以获取世界上的知识，也有很强的推理能力。那么我们觉得这已经和真人无异了。

红星资本局：你指导学生发布了大模型的中文权威评测基准C-Eval，和之前的评测榜单有什么区别？

何俊贤：C-Eval是中文的第一个测大模型的评测基准。

以前在自然语言处理方向，也有很多中文的数据集和评测基准被广泛应用。但随着去年底像GPT这样的大模型出来后，很多以前的测评就没那么全面，因为大模型的能力实在太强了。以前的评测基准的区分度不够，行业突然经历大变革，急需新的评测基准来帮助大家开发模型。

如果没有评测基准，开发会非常困难，就像航行没有指南针。因为在整理数据做训练来开发模型的过程中，没有标准来告诉你，方向到底是对还是错。

之前传统评测基准的任务就像有一条点评，帮我预测到底是一星的还是两星的，到底是正面还是负面的评价，这种任务相对来说很简单。

现在C-Eval的任务是真的高考、考研的，以及清华北大上交这些学校本科生的数学物理生物真题，有50多个科目，和以前的难度很不一样。

红星资本局：如果要处理现在更高的难度，对大模型提出的新要求在哪？

何俊贤：大模型需要能够准确记忆更多的知识，且能够进行更复杂的推理。

红星资本局：从C-Eval的题目来看，不只考验信息的储备能力，还有数理类的解题能力？

何俊贤：一个模型除了知识以外，还很重要的是分析能力，因为我们认为真正的智能是需要推理的。

一方面，以中文的背景来说，模型需要知道很多知识，包括和中国文化有关的历史、政治、地理等各方面的知识。这需要记忆能力，但记忆能力比较浅显，只需要记住就可以。

另一方面，数学和物理需要的逻辑推理能力很难。知道数学和物理的原理，要运用原理，用一定的逻辑把题目解出来。这本质上是一种强逻辑的测试，往往对大脑非常难，因为某种程度上，这才关系到真正的智能。

红星资本局：C-Eval榜单测过的近100个模型中，中文的大语言模型到哪个阶段了？和ChatGPT4.0的差距还有多少？

何俊贤：跟ChatGPT4.0的差距还是很大的。因为ChatGPT在中文基准上，没有办法完全反映出它的优势。

我们5月份测的时候，ChatGPT4.0是遥遥领先的，比第二名要高很多。但是现在ChatGPT4.0在我们的榜单上，可能只排到前10左右。一方面因为C-Eval测评的一部分需要死记硬背，测的又是中国文化，ChatGPT没有那么擅长。另一方面因为国内很多模型有对C-Eval进行针对性的优化，导致榜单数字虚高，也就是我们常说的“刷榜”行为。

但是从更多的评测来看，以及大家直观的感受，其实国内的模型和ChatGPT4.0的差距还很大。用户的感受是最直观的，这很难欺骗大众。

红星资本局：对中文的大模型来说，需要解决的差距在哪？

何俊贤：国内的模型和ChatGPT最大的差距，还是强推理能力上。这关系到更高层次的智能，真正的差距并不是死记硬背的那部分。

真正的差距，是一些很难的任务，比如说让它帮你写代码，让它理解一个很长的指令，然后让它自己推理的能力，这方面的差距非常大。这是很关键的能力，死记硬背上的差距并没有那么大。

红星新闻记者程璐洋

编辑余冬梅

打开APP阅读更多精彩内容