人人小说网 > 都市小说 > 重生之AI教父 > 第207章 Attention is all you need

第207章 Attention is all you need(1 / 2)

原本发布t方法的论文名为《Attention is all you need》,意思是注意力机制就已经完全足够满足你的所有那些乱七八糟的技术需求了。

这项工作不仅引发了注意力技术的狂潮,顺带还引发了一波起名的狂潮。一时间,满大街都是xxx is all you need样式的名字。

这篇论文的一大意义是彻底抛弃了传统的循环网络和卷积网络结构,推陈出新,而是仅仅只使用注意力机制来处理机器翻译问题,并且取得了非常好的效果。

此前,人们一般都认为,注意力机制只能作为一种辅助道具,协助传统的网络来学习特征。

此后,这种全新的t方法迅速成为了语言类研究的重点方向,并且衍生出了bERt和Gpt两个经典的路线,后者更是进化出了chatGpt这个家喻户晓的新颖技术。

“注意力机制这个概念其实已经有了很多年了,差不多跟我的年龄一样大。”九几年的时候,注意力概念就已经在计算机视觉领域产生。

“它的概念也非常好理解,就像是直播中捕捉视觉的眼动仪,可以在直播画面上显示主播眼睛正在观察的地方。注意力机制的目的,就是为了让深度神经网络可以起到类似的效果,迫使神经网络去关注图片中的重要部分。”

比如孟繁岐最开始参加的千分类图像竞赛,人工智能模型或许可以正确地识别了这张图片的内容,但是真正让它做出这个判断的原因,却很可能大大出乎你的意料。

它识别出图像中的内容是猫,却非常有可能并不是因为它的【注意力】在关注图像中的猫,神经网络也许压根就没有在看图像中的猫这个生物,它在看别的。

或许是因为图像中有猫粮,或者图片的角落有【猫】相关的水印,又或者它可能是发现周边都是草地的图片内容往往是猫,因而一看到绿色的草地,就会做出类似的判断。

当然,更有可能的是出于某种人类无法理解和解释的原因。

虽然看的地方不对,结果却是正确的,这种现象很容易被研究者们忽略,是非常危险的。

这种缺陷可以通过大量的数据和各种其他技术手段去弥补。如果没有做好这些事情,模型在训练测试的时候往往会表现得非常出色,可等到实际投入使用的时候,就很可能出大问题。

“隔壁有同事在尝试把你写的注意力算子应用在高分辨率的图片上,以求降低计算成本。”

伊利亚分享了一下谷歌内部相关的情况:“我这边也在考虑,在循环网络或者长短期记忆网络上结合注意力,去处理翻译任务。”

注意力机制加上高清图片是比较合理的,通过注意力的筛查,可以剔除图片中不重要的部分,从而大大减少计算量。

孟繁岐微微点了点头,心中想着:“图片中的像素其实是非常冗余的,比如人类就可以轻松通过很局部的内容推测出物体的全貌,根据恺明后来的研究,甚至只需要原本百分之十几二十的像素,就可以完成图像的重构。”

“借助注意力来筛掉一部分像素,的确可以极大地减少计算量。使用这种办法,就可以在原本的速度下采用更高分辨率的图像,对关键的部分会处理得更加清楚,也就更加准确。”

孟繁岐认同这种做法,不过那是在图像任务当中了,在语言问题当中是大不一样的。人类的语言信息含量是非常高,密度也很大,即便只少一两成信息,甚是一两个字的差别,都很有可能会彻底改变句子的含义。

比如【我很喜欢】和【我不喜欢】,一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。

不过可以像伊利亚一样,换一个做法去使用注意力机制。

“注意力机制如果应用在语言和文本当中,其实计算的就是一个【相关程度】,一个句子当中每一个词与其余词的相互关系和相关的情况。”

孟繁岐也没想到伊利亚的思路这么灵活,自己年初刚刚在搜索引擎中稍微利用了一下类似的概念,也没有写作论文,但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。

“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。

最新小说: 为妾 向小姐还没动心,顾总失控了 恶妹抢亲?她转嫁国公府养崽旺夫 道侣三千 快穿之退休后我在书里当奶爹 全网千万舔狗,我当共享男友 嫡女重生后,禁欲王爷非她不娶 藏于盛夏 玄幻:血脉被夺,炼体的我无敌了 活着:我成了地主家儿子徐福贵