
在东说念主工智能的宇宙里,缅念念是一个不灭的话题。无论是东说念主类的短期缅念念已经长期缅念念J9九游会体育,王人在咱们的学习和有规划中饰演着至关进攻的变装。然则,关于AI模子来说,若何有用地缅念念和处理海量数据一直是一个纷乱的挑战。传统的Transformer模子固然刚劲,但在处理长高下文时靠近着计较复杂度和内存浪掷的瓶颈。面前,Google Research的科学家们提倡了一种全新的神经齐集架构——Titans,它不仅大约高效地缅念念历史信息,还能在测试时动态学习和淡忘,简直竣事了AI的“长期缅念念”。
论文地址:Titans: Learning to Memorize at Test Time
在往常的十多年里,商量东说念主员一直在探索若何有用地期骗轮回模子和精真金不怕火力机制。轮回模子试图将数据压缩到一个固定大小的遮拦气象中,而精真金不怕火力机制则允许模子宥恕所有这个词高下文窗口,捕捉所有瑰丽之间的径直依赖联系。然则,这种精准的依赖联系建模带来了二次方的计较资本,赶走了模子只可处理固定长度的高下文。
Titans的提倡恰是为了处治这一问题。它引入了一个新的神经长期缅念念模块,大约学习缅念念历史高下文,并匡助精真金不怕火力机制在期骗往常信息的同期宥恕面前高下文。从缅念念的角度来看,Titans将精真金不怕火力机制视为短期缅念念,而神经缅念念模块则充任长期缅念念。基于这两个模块,Titans架构应时而生,并在言语建模、知识推理、基因组学和技能序列任务中推崇出色,卓越了现存的Transformer和当代线性轮回模子。
在这一部分,论文当先先容了Titans架构的基础看法和配景知识。作家计议了精真金不怕火力机制极端高效变体,并回归了当代线性轮回模子。通过这些配景知识,作家提倡了一个缅念念视角,解释了若何想象更有用的架构。
精真金不怕火力机制:Transformer模子的中枢是精真金不怕火力机制,它通过计较查询(query)、键(key)和值(value)之间的相似性来生成输出。尽管精真金不怕火力机制在调回方面相配刚劲,但其计较复杂度较高,尤其是在处理长序列时。
高效精真金不怕火力机制:为了提高精真金不怕火力机制的计较后果,商量东说念主员提倡了多种变体,如疏淡精真金不怕火力、近似softmax和基于核的线性精真金不怕火力。这些要领通过减少计较量,使得模子大约处理更长的序列。
当代线性模子极端缅念念视角:线性Transformer和线性轮回神经齐集(RNN)通过压缩历史数据到一个固定大小的矩阵或向量中来竣事高效的计较。然则,这种压缩状貌在处理相配长的高下文时可能会导致信息丢失。因此,作家提倡了一个关节问题:什么样的缅念念结构是好的? 以及若何想象一个有用的缅念念更新和检索机制?
在这一部分,作家详备先容了Titans的中枢组件——神经长期缅念念模块(neural long-term memory module)。这个模块大约在测试时动态学习和淡忘信息,从而竣事对历史高下文的有用缅念念。
为了想象一个大约缅念念历史高下文的神经缅念念模块,作家提倡了一个基于“惊喜”主义的更新机制。具体来说,当一个输入与模子的预期不符时,它被觉得是“惊喜”的,从而更容易被缅念念。作家通过计较输入相关于模子的梯度来推断这种“惊喜”,并使用梯度下跌法来更新缅念念。
为了加快老到历程,作家提倡了一种并行化算法,期骗矩阵乘法来高效地更新缅念念。这种要领不仅减少了计较复杂度,还能充分期骗硬件加快器(如TPU和GPU)的性能。
除了长期缅念念模块,Titans还引入了一个捏久缅念念模块,用于存储任务议论的知识。这些参数是独处于输入数据的,大约在不同任务中分享,从而提高了模子的泛化智商。
在这一部分,作家探讨了若何将神经缅念念模块有用地融入到深度学习架构中。Titans架构由三个主要模块构成:中枢模块、长期缅念念模块和捏久缅念念模块。作家提倡了三种不同的变体,诀别将缅念念模块行动高下文、门控机制和层来使用。
在这种架构中,缅念念模块被视为面前信息的高下文。模子通过查询缅念念模块来检索与面前高下文议论的历史信息,并将其与捏久缅念念参数沿途输入到精真金不怕火力模块中。
在这种变体中,模子径直使用输入数据来更新长期缅念念,并通过滑动窗口精真金不怕火力机制来处理面前高下文。这种想象将滑动窗口精真金不怕火力视为精准的短期缅念念,而神经缅念念模块则充任渐进的长期缅念念。
在这种架构中,神经缅念念模块被用作深度神经齐集的一层。这种想象雷同于将轮回模子与精真金不怕火力机制聚会,但Titans通过将缅念念模块与精真金不怕火力模块分离,竣事了更高效的数据处理。
在这一部分,作家通过一系列实际考证了Titans在多个任务中的推崇,包括言语建模、知识推理、基因组学和技能序列展望。
作家在实际中使用了三种Titans变体(MAC、MAG、MAL)以及单独的神经缅念念模块(LMM),并与现存的Transformer和线性轮回模子进行了对比。实际数据集包括Wikitext、LMB、PIQA、HellaSwag、WinoGrande等。
在言语建模任务中,Titans在所有变体中王人推崇出了优于现存模子的性能,尤其是在处理长高下文时。Titans的神经缅念念模块在困惑度(perplexity)和准确率(accuracy)方面均赢得了最好得益。
在针在干草堆(Needle in a Haystack)任务中,Titans展示了其在长高下文中的非常推崇。与现存模子比较,Titans大约更有用地从长文本中检索出关节信息,尤其是在高下文长度跨越2M时。
在BABILong基准测试中,Titans在少样本和微调建筑下均推崇出了优于现存模子的性能,以至跨越了GPT-4等大型模子。
作家还探讨了缅念念深度对模子性能的影响。实际赶走标明,跟着缅念念深度的加多,模子在处理长序列时的推崇权贵耕作,但老到速率会有所下跌。
在技能序列展望任务中,Titans的神经缅念念模块相似推崇出了优于现存模子的性能,尤其是在长期展望任务中。
在DNA建模任务中,Titans的神经缅念念模块与现存的最先进模子比较推崇出了竞争力,进一步讲授了其在非当然言语任务中的后劲。
在后果方面,Titans的老到糊涂量与现存模子格外,尤其是在处理长序列时推崇出色。
临了,作家通过消融商量考证了Titans各个组件的孝敬。实际赶走标明,权重衰减、动量、卷积和捏久缅念念等组件王人对模子的性能有权贵影响。
在本文中,作家提倡了一种大约在测试时学习缅念念的神经长期缅念念模块,并基于此想象了Titans架构。通过实际考证,Titans在多个任务中推崇出了优于现存模子的性能,尤其是在处理长高下文时。Titans不仅大约彭胀到跨越2M的高下文窗口,还在准确率上卓越了现存的Transformer和线性轮回模子。
Titans的竣事基于PyTorch和JAX,作家筹算在不久的改日公开代码J9九游会体育,供商量东说念主员和开采者使用。