Transformer到底是何方神圣?揭秘大模型背后的硬核技术

来自版块: 人工智能
52
0

过去几年间,大模型的飞速发展,不仅推动了生成式AI的进步,也为各行各业带来了前所未有的变革。而大模型之所以能够取得如此成就,核心在于Transformer架构作为其支撑力量发挥了至关重要的作用。具有哪些优势?  T ...

      过去几年间,大模型的飞速发展,不仅推动了生成式AI的进步,也为各行各业带来了前所未有的变革。而大模型之所以能够取得如此成就,核心在于Transformer架构作为其支撑力量发挥了至关重要的作用。

具有哪些优势?

  Transformer是一种广泛应用于自然语言处理(NLP)中的深度学习模型,通过引入注意力机制(Attention Mechanism),能够高效地处理输入信息,并在长序列中保持信息的流动。

  据悉,Transformer于2017年在论文《Attention is All You Need》中首次引入,此后成为深度学习模型的首选架构,为OpenAI的GPT、Meta的Llama和谷歌的Gemini等文本生成模型提供支持。除了文本,Transformer还应用于音频生成、图像识别、蛋白质结构预测,甚至游戏等众多领域,这主要归功于几个关键因素:

第一,长上下文

  注意力机制可以将输入序列中的所有令牌相互比较。因此,整个输入中的信息将被记录并用于生成输出。相比之下,循环神经网络(RNN)会忘记较旧的信息,卷积神经网络(CNN)只能使用靠近每个令牌的信息。这就是为什么可以上传数百页内容给大模型聊天机器人,询问其中任何一页的问题,并获得准确回应的原因。RNN和CNN缺乏长上下文是Transformer在任务中击败它们的最大原因。

  第二,并行性

  Transformer中的注意力机制可以在输入序列中的所有令牌上并行执行。这与RNN顺序处理令牌不同。因此,Transformer可以更快地训练和部署,为用户提供更快地响应。这种并行处理能力显著提高了Transformer相对于RNNs的效率。

  第三,可扩展性

  研究人员不断增加Transformer的规模和使用来训练它们的数据量。Transformer模型越大,它能理解和生成的文本就越复杂和细致,例如,GPT-3有1750亿个参数,而GPT-4超过1万亿个。与构建一个包含10亿参数的模型相比,扩大Transformer的规模至一个拥有100亿参数的模型,并不会显著增加所需的时间。这种可扩展性使得Transformer成为各种高级应用的强大工具。

缺点亦不容忽视

  然而,尽管Transformer具有诸多优势,但其缺点亦不容忽视。Transformer在处理长序列时具有二次方的时间和空间复杂度,即输入中的每个令牌都与其他每个令牌进行比较,两个令牌会有4次比较,三个令牌会有9次,四个令牌会有16次,依此类推。基本上,计算成本是令牌数量的平方,这意味着需要大量的计算资源。具体来看:

  一是需要专门的硬件。大模型无法在普通计算机上高效运行。由于大模型的参数量非常大且结构十分复杂,通常需要大量的RAM来加载模型参数。并且,传统的CPU没有针对并行计算进行优化,运行的大模型可能需要几分钟才能生成一个令牌,这使得GPU成为更合适的选择。然而,GPU并不是最便宜或最容易获得的硬件。

  二是输入长度有限。Transformer可以处理的文本量有限,也就是上下文长度。GPT-3最初只能处理2,048个令牌。注意力实施的进步产生了上下文长度高达100万令牌的模型。即便如此,找到每一个额外的上下文长度仍需要进行大量研究。

  三是增加能源成本。支持Transformer架构计算的数据中心不仅依赖于大量的能源维持运行,还需要充足的水资源来实现有效冷却。据估计,训练GPT-3需要1300兆瓦时的电力。随着模型变大,所需的电力也在增加。另据科研机构Digiconomist的预测,到2027年,AI的用电量可能等同于荷兰一年的电力使用。

  我们认为,Transformer无疑是推动AI领域创新发展的关键力量。尽管面临一些挑战,但随着技术的不断进步,这些问题有望逐步得到改善和解决。



文章来源:Yesky天极资讯      作者:yu
原文链接:https://ai.yesky.com/166/265666.shtml
已注明著作权归属所有及作者,非用于商业用途。文章
素材均来自网络,如有侵权请告知删除。


鲜花

握手

雷人

路过

鸡蛋
2024-10-23 18:21

热文

  • 3 天
  • 7天
返回顶部