【AI演义】23.Transformer登场
作者:微信文章23.Transformer登场
——2017年6月谷歌山景城,一个清洁工眼中的八个疯狂工程师
简单说就是:谷歌八个工程师搞了个叫"变形金刚"的新技术,让机器学会了"集中注意力",结果把整个AI界都给炸翻了🚀
我叫卡洛斯,谷歌山景城总部的清洁工。2017年6月的一个晚上,我正在17号楼打扫卫生,看到一间会议室灯还亮着,里面传来激烈的争论声。
推门进去,八个工程师围着白板,上面画满了看不懂的图表。领头的是个印度哥们儿阿希什·瓦斯瓦尼,说话时爱敲白板,每个重点都要"咚咚"敲两下。
"卡洛斯!正好!"阿希什看到我就眼睛一亮,"你能帮我们理解个问题吗?"
我懵了:"我就是个打扫卫生的..."
"正因为这样才需要你!"另一个工程师雅各布笑着说,这德国人有个怪癖,思考时会不停转笔,"我们想让机器理解语言,但它老是搞混。"
"啥意思?"
阿希什在白板上写了句英文,大概意思是"动物没过马路因为它太累了"。
"这个'它'指的是什么?"他问我。
"当然是动物啊,动物太累了。"我说。
他又写了一句,这回是"动物没过马路因为它太宽了"。
"这回'它'是马路,马路太宽了。"
"对!"八个工程师同时喊起来,吓我一跳。
"人类一看就懂,但机器傻眼了,"阿希什敲着白板,"以前的方法是让机器从左到右一个词一个词地读,像个近视眼,看了后面忘了前面。"
"那咋办?"我问。
这时一个叫卢卡什的波兰小伙子跳起来:"让机器学会'注意力'!知道该重点看哪里,别傻乎乎地从头读到尾!"
他们给我演示。想象你在看一本书找答案:
老方法:从第一页开始,一页页翻,翻到100页时早忘了第1页写啥了😵
新方法:像考试时翻书,直接看重点!哪里有答案就重点看哪里,其他地方扫一眼就行。
"这不就是我儿子考试的办法吗?"我笑了,"开卷考试时他从来不通读,就找关键词。"
"完全正确!"阿希什激动得又敲白板,"我们叫它'自注意力机制'——机器自己决定注意什么!"
最牛的是,他们让机器同时注意多个地方。打个比方,翻译"我爱你":
一个注意力头看"我"另一个头看"爱"第三个头看整体语序最后合起来变成英文
"就像一个班的学霸,"雅各布转着笔说,"每人负责一部分,最后合并答案。"
我正听得入神,另一个工程师伊利亚慢悠悠地说:"最妙的是,这些'注意力'可以同时计算。"
"啥意思?"
"老方法像排队买饭,一个个来;新方法像自助餐,大家同时取菜,"他若有所思地摸着下巴,"速度大幅提升。他们测试过,8块专业显卡最短12小时就能训练好。"
那晚他们讨论了两个名字——论文叫"你只需要注意力",听着像情歌歌词😂,而这个新技术本身叫"变形金刚"。
"为啥叫变形金刚?"我好奇地问。
"因为它能变形啊!"阿希什笑了,"能变成翻译器、能变成问答机、能变成写作助手...一个模型搞定所有!"
后来听说论文标题还有个彩蛋——致敬披头士乐队那首"你只需要爱"。程序员的浪漫,真让人摸不着头脑😄
2017年底,论文发表了。虽然当时没拿到口头报告的机会,但很快就火了。我打扫办公室时经常听到:
"妈呀!谷歌的伯特用变形金刚刷爆了所有榜单!"(2018年)
"开放AI的模型也是基于变形金刚!"
"所有大模型都在用这个架构!"
最让我惊讶的是速度。以前训练一个翻译模型要几个月,现在几周甚至几天搞定。就像从自行车直接升级到跑车。
有意思的是,这八个作者后来几乎都离开谷歌各自创业了。阿希什和另一个作者搞了两家公司,雅各布2021年创办了生物科技公司,还有人去搞区块链、聊天机器人...他们就像《西游记》里取完经的师徒,把真经传给世界后就散了。
2019年的一天,我又碰到一个还在谷歌的老工程师。
"还记得那个变形金刚吗?"他问我。
"当然记得,八个疯子熬夜搞的。"
"知道吗?现在全世界的AI都在用那个技术。所有你听说过的大模型,全是变形金刚的孩子。"
"那他们不是改变世界了?"
他笑了:"他们只是打开了一扇门。真正疯狂的还在后面。听说开放AI正在训练更大的模型,几百亿参数..."
他说得对。2020年那个1750亿参数的超大模型横空出世。2022年聊天机器人引爆全球。而这一切的基础,都是2017年那个夏夜,八个工程师想出的"注意力"机制。
现在每次看到AI新闻,我都会想起那间会议室。八个普通工程师,一块白板,一个简单的想法——让机器学会集中注意力。
谁能想到,这个想法会成为AI革命的发动机?就像那晚有人说的:"有时候,最强大的想法往往最简单。"🎯
多年后那篇11页的论文,引用次数超过十几万,成了AI历史上最重要的论文之一。那个"你只需要注意力"的标题,也成了AI圈最著名的一句话。
确实,你只需要注意力。机器学会了注意力,就学会了理解世界。
🔵剧透 雏形 | 看开放AI如何用变形金刚孵化出那只"金蛋"
页:
[1]