为什么国产大模型都说超越ChatGPT而体验却很拉垮?
在国内经常听到很多公司发布一个AI大模型,经常拿ChatGPT来做比较,经常听到最多就是超越ChatGPT,遥遥领先,实际用的时候往往都是答非所问,体验贼差,某度、某飞、某川等等都这么号称过!每个出大模型的公司都恨不得把ChatGPT往脚下踩,最近某度还开始模仿ChatGPT开始收费,这勇气也是杠杠的!
他们凭什么这么说呢?
除了跟 「GPT-4 相比毫不逊色」这个是空口白话之外,其他的国产大模型,都拿出了证据。那就是他们在三大测试集上与ChatGPT的对比:分别是 C-Eval, mmLU, AGIEval。
• C-Eval 是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集
• MMLU 是Hendrycks et al 2020年在论文 "Measuring Massive Multitask Language Understanding" 中提出的,它旨在评估语言模型在广泛的知识领域和任务类型上的理解能力。
• AGIEval 是微软的一个华人研究团队发布了一项基准测试 ,这项基准测试专门用于对基础模型的类人能力做准确考察(涵盖高考、法学入学考试、数学竞赛和律师资格考试等
用这些测试集来评价大模型的表现,就相当于是「开卷考试」,题目都是公开的。这时候,各家大模型就可以针对这些模型,进行专门的训练,就可能会出现在测试集上表现很好,但可能在现实世界的其他应用场景中表现不尽人意。表现出来,就是用户在实际使用中,感觉其跟ChatGPT还差得远。
这其实就是落入了Goodhart’s law 的陷阱。
Goodhart’s Law在AI中的应用
Goodhart’s Law是由英国经济学家查尔斯·古德哈特提出的一种观察法则,其主要内容是:“当一个指标变成目标时,它就不再是一个好的指标。”在AI领域,如果一个模型被优化以在某个特定的评测指标上表现优秀,那么这个模型可能在这个指标上表现得非常好,但在实际应用中的表现可能并不理想。
国产大模型声称超越ChatGPT的可能原因
国产大模型之所以声称超越ChatGPT,可能是因为它们在某些特定的评测任务上表现得比ChatGPT更好。然而,这并不意味着它们在所有情况下都比ChatGPT更好。实际上,由于ChatGPT是基于大量多样化数据训练的,因此它在处理各种不同类型的任务和问题上可能更强大和灵活。
实际应用中的挑战:从评测指标到实际体验
实际应用中的情况往往比评测任务更复杂,更多样化,而且可能包含一些评测任务中没有考虑到的因素。此外,AI模型的体验也受到许多其他因素的影响,包括模型的训练数据、模型的设计和优化策略、以及模型在实际应用中的使用方式等。
如何避免Goodhart’s Law的陷阱
要避免Goodhart’s Law的陷阱,我们需要从多个角度和多个方面来评估和优化AI模型的性能。这包括但不限于:提高模型的训练数据的质量和多样性,优化模型的设计和优化策略,以及改善模型在实际应用中的使用方式等。
总的来说,我们不能只关注单一的评测指标,而应该从多个角度和多个方面来评估和优化AI模型的性能。只有这样,我们才能确保AI模型在实际应用中提供良好的用户体验,真正实现其潜力和价值。