您现在的位置：首页 > 解读 > 正文

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍-当前短讯

时间：2023-06-09 16:05:47 来源：清一色财经

没错，5,000,000个token的上下文，语言模型输入长度史诗级增强！

记性差是目前主流大型语言模型的主要痛点，比如ChatGPT只能输入4096个token（约3000个词），经常聊着聊着就忘了之前说什么了，甚至都不够读一篇短篇小说的。

(资料图片)

过短的输入窗口也限制了语言模型的应用场景，比如给一篇科技论文（约1万词）做摘要的时候，需要把文章手动切分后再输入到模型中，不同章节之间关联信息就丢失了。

虽然GPT-4最长支持32000个token、升级后的Claude最高支持10万token，但也只能缓解脑容量不足的问题。

最近一家创业团队Magic宣布即将发布LTM-1模型，最长支持500万token，大约是50万行代码或5000个文件，直接比Claude高50倍，基本可以覆盖大多数的存储需求，这可真就量变产生质变了！

LTM-1的主要应用场景在于代码补全，比如可以生成更长、更复杂的代码建议。

还可以跨越多个文件重用、合成信息。

坏消息是，LTM-1的开发商Magic并没有发布具体技术原理，只是说设计了一种全新的方法the Long-term Memory Network (LTM Net)。

但也有个好消息，2021年9月，DeepMind等机构的研究人员曾经提出一种名为 ∞-former 的模型，其中就包含了长期记忆（long-term memory，LTM）机制，理论上可以让Transformer模型具有无限长的记忆力，但目前并不清楚二者是否为同一技术，或是改良版。

论文链接：https://arxiv.org/pdf/2109.00301.pdf

开发团队表示，虽然LTM Nets可以比GPT看到更多的上下文，但LTM-1模型的参数量比当下的sota模型小的多，所以智能程度也更低，不过继续提升模型规模应该可以提升LTM Nets的性能。

目前LTM-1已经开放alpha测试申请。

申请链接：https://magic.dev/waitlist

LTM-1的开发商Magic创立于2022年，主要开发类似GitHub Copilot的产品，可以帮助软件工程师编写、审查、调试和修改代码，目标是为程序员打造一个AI同事，其主要竞争优势就是模型可以读取更长的代码。

Magic致力于公众利益（public benefit），使命是构建和安全部署超过人类只能的AGI系统，目前还是一家只有10人的创业公司。

今年2月，Magic获得由Alphabet旗下CapitalG领投的2300万美元A轮融资，投资人还包括GitHub前首席执行官和Copilot的联合出品人Nat Friedman，目前公司总资金量已达2800万美元。

Magic的首席执行官兼联合创始人Eric Steinberger本科毕业于剑桥大学计算机科学专业，曾在FAIR做过机器学习研究。

在创立Magic前，Steinberger还曾创立过ClimateScience，以帮助全世界的儿童学习气候变化的影响。

无限记忆的Transformer

语言模型核心组件Transformer中注意力机制的设计，会导致每次增加输入序列的长度时，时间复杂度都会呈二次方增长。

虽然已经有一些注意力机制的变体，比如稀疏注意力等降低算法复杂度，不过其复杂度仍然与输入长度有关，不能无限扩展。

∞-former中长期记忆（LTM）的Transformer模型可以将输入序列扩展到无限的关键在是一个连续空间注意力框架，该框架用降低表征粒度的方式提升记忆信息单元的数量（基函数）。

在框架中，输入序列被表示为一个「连续信号」，代表N个径向基函数（RBF）的线性组合，这样一来，∞-former的注意复杂度就降为了O(L^2 + L × N)，而原始Transformer的注意力复杂度为O(L×(L+L_LTM))，其中L和L_LTM分别对应于Transformer输入大小和长期记忆长度。

这种表示方法有两个主要优势：

1. 上下文可以用小于token数量的基函数N来表示，减少了注意力的计算成本；

2. N可以是固定的，从而能够在记忆中表示无限的上下文，并且不会增加注意力机制的复杂度。

当然，天下没有免费的午餐，代价就是分辨率的降低：使用较少数量基函数时，会导致在将输入序列表示为连续信号时降低精度。

为了缓解分辨率降低问题，研究人员引入了「粘性记忆」（sticky memories）的概念，将LTM信号中的较大空间归结为更频繁访问的记忆区域，在LTM中创造了一个「永久性」的概念，使模型能够更好地捕捉长时间的背景而不丢失相关信息，也是从大脑的长期电位和可塑性中得到了启发。

实验部分

为了验证∞-former能否对长语境进行建模，研究人员首先对一个合成任务进行实验，即在一个长序列中按频率对token进行排序；然后通过微调预训练语言模型，对语言建模和基于文档的对话生成进行实验。

排序

输入包括一个根据概率分布（系统未知）采样的token序列，目标是按照序列中频率递减顺序生成token

为了研究长期记忆是否被有效利用，以及Transformer是否只是通过对最近的标记进行建模来排序，研究人员将标记概率分布设计为随时间变化。

词表中有20个token，分别用长度为4,000、8,000和16,000的序列进行实验，Transformer-XL和compressive transformer作为对比基线模型。

实验结果可以看出，在短序列长度（4,000）的情况下，Transformer-XL实现了比其他模型略高的精度；但当序列长度增加时，其精度也迅速下降，不过对于∞-former来说，这种下降并不明显，表明其在对长序列进行建模时更有优势。

语言建模

为了了解长期记忆是否可以用来扩展预训练的语言模型，研究人员在Wikitext103和PG-19的一个子集上对GPT-2 small进行了微调，包括大约2亿个token。

实验结果可以看到，∞-former可以降低Wikitext-103和PG19的困惑度，并且∞-former在PG19数据集上获得的改进更大，因为书籍比维基百科文章更依赖于长期记忆。

基于文档对话

在以文档为基础的对话生成中，除了对话历史之外，模型还可以获得关于对话主题的文档。

在CMU Document Grounded Conversation dataset（CMU-DoG）中，对话是关于电影的，并给出了电影的摘要作为辅助文档；考虑到对话包含多个不同的连续语篇，辅助文档被分为多个部分。

为了评估长期记忆的有用性，研究人员只让模型在对话开始前才能访问文件，使这项任务更具挑战性。

在对GPT-2 small进行微调后，为了让模型在记忆中保持整个文档，使用一个N=512个基函数的连续LTM（∞-former）扩展GPT-2。

为了评估模型效果，使用perplexity、F1 score、Rouge-1和Rouge-L，以及Meteor指标。

从结果来看，∞-former和compressive Transformer能够生成更好的语料，虽然二者的困惑度基本相同，但∞-former在其他指标上取得了更好的分数。

标签：

上一篇：常宝股份：股东嘉愈医疗拟减持不超过3%
下一篇：最后一页

特别关注

古瓷绽新色：陶艺大师探索釉色配方

原标题：古瓷绽新色：陶艺大师探索釉色配方6月8日，刘法星在松阳县一处

2023-06-09 15:52
确认！知名男演员暂停录制-速读

原标题：确认！知名男演员暂停录制知名配音演员姜广涛“消失”一事，又

2023-06-09 15:49
校园开启“迎端午、知端午”传统习俗课

原标题：校园开启“迎端午、知端午”传统习俗课6月8日，学生们在传统习

2023-06-09 15:40
《梦中的那片海》塑造五十年前一群追梦人微动态

原标题：肖战李沁领衔的京味剧开播霸屏（引题）《梦中的那片海》塑造五

2023-06-09 14:46
每日热门：非遗进校园缤纷嘉年华

原标题：非遗进校园缤纷嘉年华6月8日，学生们在活动现场体验吹奏葫芦丝

2023-06-09 14:41
全球即时看！2023文化强国建设高峰论坛·文化遗产保护分论坛在深圳举行

原标题：2023文化强国建设高峰论坛·文化遗产保护分论坛在深圳举行工人

2023-06-09 14:42
商务印书馆发布6月十大好书最新版《牛津高阶英汉双解词典》重磅上市

原标题：商务印书馆发布6月十大好书最新版《牛津高阶英汉双解词典》重

2023-06-09 14:36
第21届越剧大展演启幕名家新秀携20场大戏韵动江南_当前快讯

原标题：第21届越剧大展演启幕名家新秀携20场大戏韵动江南中新网绍兴

2023-06-09 11:44
医疗剧不断创新为何仍爆款难出

原标题：医疗剧不断创新为何仍爆款难出（主题）单元化叙事成套路，观众

2023-06-09 11:53
世界看点：北京市首个非物质文化遗产数字化资源平台上线

原标题：北京市首个非物质文化遗产数字化资源平台上线中新网北京6月8日

2023-06-09 11:52
吉林校园里的京剧“票友”：将“新元素”融入国粹-动态

原标题：吉林校园里的京剧“票友”：将“新元素”融入国粹中新网吉林6

2023-06-09 11:36
首届文化强国建设高峰论坛：数字出版产业迎全新机遇世界视点

原标题：首届文化强国建设高峰论坛：数字出版产业迎全新机遇中新网深圳

2023-06-09 11:45
数字化助力中华传统文化“活”起来

原标题：数字化助力中华传统文化“活”起来6月8日，观众在文博会数字中

2023-06-09 10:55
【天天新视野】瓷画邂逅敦煌壁画江西“博物馆奇妙夜”演绎“釉见敦煌”

原标题：瓷画邂逅敦煌壁画江西“博物馆奇妙夜”演绎“釉见敦煌”中新社

2023-06-09 10:49
长篇小说《星星点灯》用儿童视角展现伟大长征精神

原标题：长篇小说《星星点灯》用儿童视角展现伟大长征精神中新网北京6

2023-06-09 10:36
全球观速讯丨“云游非遗”展映三千余部视频

原标题：“云游非遗”展映三千余部视频北京日报讯（记者韩轩）今年6月1

2023-06-09 10:46
世界最资讯丨《变形金刚：超能勇士崛起》长城脚下首映

原标题：《变形金刚：超能勇士崛起》长城脚下首映（主题）杨紫琼为首次

2023-06-09 10:54
魏微的写作总是和时代的幽微变迁“同辐共辏”——编年体与时代之书世界信息

原标题：魏微的写作总是和时代的幽微变迁“同辐共辏”——（引题）编年

2023-06-09 07:32
@爱看书的你：第29届北京国际图书博览会将举办

原标题：@爱看书的你：第29届北京国际图书博览会将举办第二十九届北京

2023-06-09 07:45
探访网红文物的出土地——安徽屯溪千年古村隆阜

原标题：探访网红文物的出土地——安徽屯溪千年古村隆阜中新网安徽黄山

2023-06-09 07:33
歌舞相映颂《老兵》 “时代楷模”张富清感人事迹搬上舞台

原标题：歌舞相映颂《老兵》（主题）“时代楷模”张富清感人事迹搬上舞

2023-06-09 07:37
动画艺术家林文肖去世代表作有《雪孩子》_天天资讯

原标题：动画艺术家林文肖去世（主题）代表作有《雪孩子》（副题）北京

2023-06-09 05:48
上海市历史博物馆与俄罗斯国家历史博物馆签订友好合作备忘录

原标题：上海市历史博物馆与俄罗斯国家历史博物馆签订友好合作备忘录6

2023-06-08 14:43
每日视讯：河北井陉：保护古村风貌留住乡愁古韵

原标题：河北井陉：保护古村风貌留住乡愁古韵6月7日拍摄的2023年完成修

2023-06-08 14:35
第七届平遥国际电影展面向全球征集华语剧本项目最新快讯

原标题：第七届平遥国际电影展面向全球征集华语剧本项目中新社太原6月8

2023-06-08 14:43

热文推荐

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍-当前短讯

无限记忆的Transformer

特别关注

焦点资讯