九游会·(j9)官方网站

发布日期:2025-05-23 07:49    点击次数:149

九玩游戏中心官网我对团队正在进行的使命有了填塞的了解-九游会·(j9)官方网站

大模子的中枢组件肃肃力机制九玩游戏中心官网,究竟若何出身的?

可能也曾有东说念主知说念,它并非2017 年 Transformer 开山论文《Attention is all you need》开创,而是来自 2014 年 Bengio 实验室的另一篇论文。

当今,这项议论背后更多细节被公开了!来自 Karpathy 与信得过作家两年前的邮件来回,引起了好多猜测。

到当今已有整 10 年历史。

一作 Dzmitry Bahdanau,其时是 Bengio 实验室的一位实习生,在实习只剩 5 周时灵光一现提议了一个简化决策,相等于好意思满了对角肃肃力。

Pytorch 等经典代码中,恰是把肃肃力称为 Bahdanau Attention,还保留着他孝顺的陈迹。

Karpathy 之是以当今拿起这段旧事,是因为最近社区中流传着一些扭曲,认为 Transformer 作家受到科幻电影《驾临》中外星东说念主交流形势的启发。

信得过 2014 年 Attention 机制的灵感,其实来自东说念主类翻译笔墨历程中来回看材料的步履。

除了表现这少量以外,这段确切故事中还有更多亮点,对今天的议论仍有好多启发。

2014 年的 Attention,与同期Alex Graves 论文 Neural Turing Machines,和Jason Weston 论文 Memory Networks有访佛之处,但这些议论起点和动机不同。

讲明在期间积蓄的临界点上,不同议论者常会独偶而提议相通的改动。

原来的名字" RNNSearch "不够直不雅,其后在 Yoshua Bengio 的建议下改为"肃肃力",更能收拢中枢成见。

原来起个好名字,确实不错提高期间的传播和影响力。

有网友看过这个故事之后,赞赏这封邮件"应该放在接洽机科学博物馆"。

给这些改变寰球的发现险些老是从实验运转的,何况莫得东说念主信得过提前知说念它们的结局。

以下为 Dzmitry Bahdanau 发给 Karpathy 的原始邮件全文翻译,邮件写于 2022 年。

10 年前,Attention 信得过的出身‍‍

嗨,Andrej。

很欢悦为您证明 8 年前发生的故事!

我在 Jakobs University(德国雅各布大学)陪同 Herbert Jaeger 完成了硕士一年事的学业后,来到 Yoshua(图灵奖得主 Yoshua Bengio)的实验室实习。

我向 Yoshua 默示我欢乐从事任何使命,他便让我参与机器翻译技俩,与 Kyunghyun Cho 及团队伸开互助。

我对将一系列单词塞进向量的想法相等怀疑,但我也确实很想要一个博士学位的 offer,是以我卷起袖子,运转作念我擅长的事情——编写代码、缔造 Bug 等等。

在某个时刻,我对团队正在进行的使命有了填塞的了解,Yoshua 邀请我攻读博士学位。2014 年是个好时间,只需这些使命就足以让我读博了——好意思好的旧时光!

我很欢悦,我合计是时刻享受乐趣并阐扬创造力了。

于是我运周折念考若何幸免 Encoder-Decoder RNN 之间的信息瓶颈。

我的第一个想法是成立一个带有两个"光标"的模子:一个在源序列中出动,由 BiRNN 编码;另一个在主张序列中出动。光标轨迹将使用动态谋划边缘化。

Kyunghyun Cho 认为这相等于 Alex Graves 的 RNN Transducer 模子。之后,我可能也读了 Graves 的手写识别论文,但这种标准对于机器翻译来说似乎不太妥贴。

上述带有光地方标准在我实习的剩余 5 周内很难好意思满,是以我尝试了更简单的标准——两个光标同期同步出动,执行上相等于硬编码的对角肃肃力。

这种标准有点效果,但空泛优雅。

是以有一天我有了新的想法,让 Decorder RNN 学会在源序列中搜索甩掉光地方位置。这在一定进度上受到了我中学英语学习中翻译熟识的启发。

在翻译时,你的眼神会在源序列和主张序列之间来回出动,我将软搜索默示为 softmax,然后对 BiRNN 现象进行加权平均。从第一次尝试就效果很好,我相等欢腾。

我将这个架构称为 RNNSearch,在 1 个 GPU 上运行。由于咱们知说念谷歌的 Ilya(OpenAI 前首席科学家 Ilya Sutskever)团队使用 8 个 GPU 的 LSTM 模子在某些方面率先于咱们,是以咱们飞速在 ArXiV 上发表了一篇论文。

其后发现,这个名字并不好。更好的名字(肃肃力)是 Yoshua 在临了的一次修改中添加到论断中的。

直不雅地说,这在解码器中好意思满了一种肃肃力机制,解码器决定源语句的哪些部分需要关爱。通过让解码工具有肃肃力机制,咱们减弱了编码器将源语句中的扫数信息编码为固定长度向量的包袱。通过这种新标准,信息不错折柳在扫数这个词凝视序列中,解码器不错相应地有摄取地检索。

一个半月后,咱们看到了 Alex Graves 的论文。照实是悉数交流的想法,尽管他的动机悉数不同。

在咱们这边,发明新算法是需求驱动的。我猜在他那处,是连合神经派系和象征派系的宏愿?Jason Weston 团队的 Memory Networks 论文也有访佛的机制。

我莫得预感到肃肃力不错在更低的脉络上使用,当作默示学习的核默算法。

但当我看到 Transformer 论文时,我立即向实验室的共事文牍:RNN 已死。

回到您最初的问题:在蒙特利尔 Yoshua 的实验室中"可微且数据依赖的加权平均"的发明与神经图灵机、Memory Networks 以及 90 年代(以致 70 年代;但我无法提供通顺)的一些关联分解科学论文无关。

这是 Yoshua 鼓吹实验室追求志在四方的指令死心,Kyunghyun Cho 在管制由低级博士生和实习生构成的大型机器翻译技俩方面的出色技巧,以及我我方多年来在编程竞赛中锻练出的创造力和编程技巧的死心。

即使我我方、Alex Graves 和这个故事中的其他扮装其时莫得从事深度学习使命,离这个想法出现也不会太远了。

肃肃力仅仅深度学习中好意思满机动空间连合的当然形势,这险些是一个不言而喻的想法,一直在恭候 GPU 填塞快,让东说念主们有能源并进展对待深度学习议论。

自从我意志到这少量,我对 AI 的大志向等于启动像机器翻译那样令东说念主咋舌的垄断技俩。

细致的研发使命不错为基础期间的超过作念出更多孝顺,而不是咱们每每认为"信得过的"东说念主工智能议论的扫数花哨的表面。

就酱!相等有趣听到更多对于您的 AI 锻练技俩的讯息(我从 Harm de Vries 那里听到了一些神话)。

干杯,

Dima

One More Thing

Karpathy 赞赏,有点骇怪这篇信得过的肃肃力发祥论文莫得得回填塞多的

自从 Attention is all you need 一飞冲天之后,寰球意志到给论文起一个好名字对期间传播的影响,背面的论文标题就放飞了。

除了扎堆师法 xx is all you need 以外,最近以致还出现了 Taylor Unswift。

讲的是把模子权重调遣成泰勒级数的参数,来保护已发布模子的扫数权并凝视被销耗。

就,emmm ……

提到的论文:

Neural Machine Translation by Jointly Learning to Align and Translate

https://arxiv.org/abs/1409.0473  

Attention is All You Need  

https://arxiv.org/abs/1706.03762

Neural Turing Machines  

https://arxiv.org/abs/1410.5401  

Generating Sequences With Recurrent Neural Networks  

https://arxiv.org/abs/1308.0850  

Memory Networks  

https://arxiv.org/abs/1410.3916  

Sequence to Sequence Learning with Neural Networks  

https://arxiv.org/abs/1409.3215

Taylor Unswift:

https://arxiv.org/abs/2410.05331

参考通顺:

[ 1 ] https://x.com/karpathy/status/1864028921664319735九玩游戏中心官网