新型 TTT 层或将革新语言模型架构

0
3151

近日,来自斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和 Meta 的研究人员提出了一种革命性的新架构,该架构有望从根本上改变语言模型。这种被称为 “测试时间训练层”(Test-Time-Training layers,简称 TTT)的新方法,使用机器学习模型取代了循环神经网络(RNN)中的隐藏状态。

传统 RNN 模型中的 “隐藏状态” 被视为网络的 “记忆”,负责在不同时间步骤之间传递信息,捕捉序列中的长期依赖性。然而,RNN 在处理长上下文时面临着显著挑战,因为将上下文压缩为固定大小的隐藏状态会导致信息损失,从而影响模型性能。

TTT 层通过对输入 token 进行梯度下降来压缩上下文,这种创新方法能够通过表达性记忆解锁线性复杂性架构,从而在长上下文中展现出优异的性能。与现有的基于注意力机制的模型相比,TTT 层显示出了明显的优势。

研究团队在 1.25 亿到 13 亿参数规模的大模型上进行了一系列对比实验。结果表明,他们设计的TTT-Linear(线性模型)和TTT-MLP(多层感知器模型)均能匹敌或超越目前最强大的 Transformers 和 Mamba 架构。特别是,TTT-Linear 在使用更少算力的情况下,达到了更低的困惑度,并能更好地利用长上下文。而在 32k 长上下文的情况下,TTT-MLP 的表现更是出色。

加州大学伯克利分校的 Karen Dalal 对此表示:”我相信这将从根本上改变语言模型。”这一突破性进展引起了学术界的广泛关注和讨论。

然而,也有研究人员对这项新技术持谨慎态度。有观点认为,只有在 30 亿到 70 亿参数的可用演示模型上进行测试,才能充分了解 TTT 的实用性。伦敦国王学院信息学系高级讲师 Mike Cook 虽然未参与 TTT 研究,但他评论道:“TTT 是一项非常有趣的创新。如果数据支持它能提高效率的观点,那无疑是个好消息。但目前还难以判断 TTT 是否真的比现有架构更优秀。”

(综合报道)

Previous article如家酒店集团副总经理邰国峰:当变化成为常态,有节奏的”降维打击”至关重要
Next articleAnthropic 与 Menlo 联合推出 1 亿美元 AI 投资基金

LEAVE A REPLY

Please enter your comment!
Please enter your name here