情感测试简介

注册

 

发新话题 回复该主题

自己挖坑自己填,谷歌大改Transfor [复制链接]

1#
哪个医院治疗白癜风好 http://www.wxlianghong.com/
机器之心报道机器之心编辑部

考虑到Transformer对于机器学习最近一段时间的影响,这样一个研究就显得异常引人注目了。

Transformer有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈平方关系。谷歌大脑KrzysztofChoromanski等人最近提出的Performer模型因为随机正正交特性为注意力矩阵构建了一个无偏的估计量,可以获得线性增长的资源需求量。这一方法超越了注意力机制,甚至可以说为下一代深度学习架构打开了思路。自面世以来,Transformer模型已经在多个领域取得了SOTA结果,包括自然语言处理、图像处理甚至是音乐处理。众所周知,Transformer架构的核心是注意力模块,它计算输入序列中所有位置对的相似度得分。然而,随着输入序列长度的增加,注意力机制本身的问题也越来越突出,因为它需要二次方的计算时间来产生所有的相似度得分,用来存储这些得分的内存大小也是如此。针对那些需要长距离注意力的应用,部分研究者已经提出了一些速度快、空间利用率高的方法,其中比较普遍的方法是稀疏注意力。标准的稀疏化技术。然而,稀疏注意力方法也有一些局限。首先,它们需要高效的稀疏矩阵乘法运算,但这并不是所有加速器都能做到的;其次,它们通常不能为自己的表示能力提供严格的理论保证;再者,它们主要针对Transformer模型和生成预训练进行优化;最后,它们通常会堆更多的注意力层来补偿稀疏表示,这使其很难与其他预训练好的模型一起使用,需要重新训练,消耗大量能源。此外,稀疏注意力机制通常不足以解决常规注意力方法应用时所面临的所有问题,如指针网络。还有一些运算是无法稀疏化的,比如常用的softmax运算。为了解决这些问题,来自谷歌、剑桥大学、DeepMind、阿兰·图灵研究所的研究者提出了一种新的Transformer架构——Performer。它的注意力机制能够线性扩展,因此能够在处理长序列的同时缩短训练时间。这点在ImageNet64等图像数据集和PG-19文本数据集等序列的处理过程中都非常有用。论文链接:
分享 转发
TOP
发新话题 回复该主题