大型语言模型(Large Language Models,LLMs)的设计初衷是接受大量语言文本的输入,并理解、总结、生成以及预测出新的内容。计算机科学家们原本只是想通过扩大数据规模来提高这些模型在已知任务上的性能。然而,像ChatGPT这样的大型语言模型却在逐步超出人类的预期,可以自主完成越来越多新的、难以预测的任务。
为了明确LLMs目前所具备的能力,来自谷歌研究院、斯坦福大学等研究机构的技术人员开发并选定了204项任务,并用这些不同的任务来辨认LLMs的已有能力。这其中的一项任务就是根据人类常用的表情符号来推测电影名称。
(相关资料图)
在测试中研究人员发现:不同复杂程度的LLMs给出的答案并不相同——简单LLMs的回答也十分简陋:“电影是一个男人,他也是一个男人,还是一个男人”;中等复杂模型的回答会更接近答案一些,“答案是《表情包电影》”;而最复杂的模型则一猜就中,直接猜出电影为《海底总动员》。
猜猜看,这些表情符号描述的是什么电影?
通过表情包猜测电影名称只是LLMs所具备能力的冰山一角。最近研究表明,LLMs具有数百种“涌现”能力,能够完成很多小模型无法完成的任务,其中有一些与文本分析关系并不大——这些任务包括进行乘法运算、生成可执行的计算机代码以及前面提到的根据表情符号猜中电影名称。
新的分析表明,在一些任务和模型中,存在一个关于模型复杂度的阈值,超过该阈值,模型的功能将会急剧上升;但随着复杂度的增加,一些模型的回答可能会出现偏差和不准确性。而这,和生物学中的一个现象十分相似。
大型AI模型中“涌现”的出现
当一些基本的小型物质聚合在一起时,往往会出现一些惊人的变化。例如,由原子构成的物质形成了生命细胞,水分子聚集形成波浪,细胞使得肌肉运动和心脏跳动,这些自组织、集体的行为被科学家们称之为“涌现”。涌现出现在涉及大量个体的系统中,而现在,随着LLMs规模的不断扩大,人们也开始发现并记录到了LLMs中出现的涌现行为。
近几年出现的GPT-3等LLMs具有上千亿的参数,通过这些模型,用户可以实现一些涌现行为:比如ChatGPT-3可以在没有任何特定训练数据的情况下解决零样本或极少样本问题,就像前面提到的根据表情符号猜电影名称。这类涌现行为表明,LLMs可以在零样本或者少样本学习的情况下解决以前从未或极少见过的问题,这是以往的模型所不具备的能力。
那么,为什么LLMs会出现涌现行为?其背后的机制是怎样的?为了更好地理解涌现行为的机制,一批研究人员正在对其做追踪记录,以期开发出更加智能的自然语言模型。
“涌现行为”背后的可能机制
在ChatGPT-3问世引发大规模关注之前,Ethan Dyer等研究人员就已在2020年预测LLMs将产生变革性影响,并呼吁研究界提供多样化的hard模式任务,以探索LLMs能够达到的极限。这一任务项目被称为“超越模拟游戏基准”(Beyond the Imitation Game Benchmark,BIG-bench),旨在测试大型LLMs是否能以人类的方式回答问题,并给出令人信服的答案。
Dyer提出了一个非常重要的研究问题:如何理解LLMs能力上的这些转变,即如何理解LLMs出现涌现?
在研究中,Dyer发现:在某些任务中,随着复杂度的增加,模型的性能呈现可预测性地平稳提高;而在其他任务中,增加参数数量并不会带来任何性能上的改善;但在大约5%的任务中,研究人员发现了一个突破——在某些阈值范围内,模型性能会显著跃升,这个阈值因任务和模型而异。
研究人员很快意识到模型的复杂度可能并不是唯一驱动涌现出现的因素。如果数据质量足够高,较小模型(或在较小的数据集上进行训练的模型)也可以在训练中诱导产生一些意想不到的能力。此外,措辞方式同样会影响模型在回答上的准确性。例如,当Dyer使用多项选择题的方式提出根据表情符号猜电影名称任务时,模型的准确率并不是突然跃升,而是会随着问题的复杂度逐渐增加。
除了模型复杂程度、数据质量以及训练措辞之外,另一个被称为“思维链推理”的能力也在涌现的出现过程中扮演着重要的角色。
注:思维链推理能力,在NeurIPS会议上报告的一篇谷歌Brain的论文指出[1],一个有自我解释要求的模型(一种称为思维链推理的能力)能够正确地解决一个数学应用问题,而没有这个要求的对照模型则无法做到。
Yi Tay近期的研究表明:思维链提示词(chain-of-thought prompting)可以改变缩放曲线,从而改变涌现出现的位置。他们所做的一项研究发现,使用思维链提示词可诱发BIG-bench研究中没有发现的涌现行为,这类提示词会要求模型解释其推理过程,这也是模型出现涌现行为的一个因素。
除此之外,也有其他的研究者对于涌现行为的出现给出了自己的答案。Ellie Pavlick最近的发现表明LLMs出现涌现行为至少有两种原因:
一种是大模型确实可能像生物系统一样自发地获得新的能力。大模型相较于小模型,学到了新的、不同的信息,从而发生一些根本性的变化;
另一种可能性是尽管大型LLMs模型看似出现了涌现行为,但是实际上可能是一种内部的、基于统计学的过程,这个过程只有通过思维链条式的推理才发挥作用。LLMs只是学习了一些启发式方法,而这些方法对于参数较少或数据质量较低的模型来说是无法实现的。
Pavlick表示,只有我们更近一步了解了LLMs的工作原理,才有可能确定是哪种可能性导致了涌现行为的出现。
涌现:瑰丽且危险
涌现行为会导致模型出现不可预测性,而这种不可预测性似乎会随着模型规模的扩大而增加。Deep Ganguli指出,在研究模型的规模对涌现行为的影响之前,我们并不知道这个模型会出现什么能力或限制,同时我们也很难提前知道这些模型是如何被使用或部署的,这将可能带来一些潜在的风险。
Anthropic公司的研究团队在去年6月份发布的对LLMs的分析中,就对LLMs是否存在某些类型的种族歧视或社会偏见进行了测试。这项研究的灵感源于一个与涌现行为相关的明显悖论:模型规模的扩大和性能的提高,可能会同时增加模型的不可预测行为,其中就包括一些可能出现的导致偏见或伤害的行为。
Ganguli表示,某些有害的行为会在一些模型中突然出现。“规模越大的模型可能会变得更加有偏见。”不过当研究人员告诉模型不要依赖于刻板印象或社会偏见时,模型能够做到减少预测和反应中的偏见,这表明,一些涌现特性可能会减少模型自身的偏见。在最近的一篇论文中,Anthropic团队提出了一种新的“道德自我纠正”模式,在这种模式下,根据用户的反馈和提示,模型会表现得更加乐于助人、诚实和无害,这将有望减少不可预测的涌现行为对人类可能带来的潜在的伤害。
Ganguli指出,涌现既表现了惊人的潜力,也带来了不可预测的风险——类似于ChatGPT-3这样的大型LLMs模型的应用正在不断增加,只有更好的理解其相互作用以及涌现出现的原理,才能更好地发挥出语言模型多样化能力。
关键词: