视觉Transformer已成为计算机视觉任务的重要模型之一。虽然它们优于之前的卷积神经网络,但其复杂度是与输入特征长度N呈二次关系。为了解决这个问题,在本文中,作者提出了UFO-ViT(Unit Force Operated Vision Trnasformer) ,通过消除非线性来减少自注意力操作的计算量。通过只修改Self-Attention的几行代码,UFO-ViT能够实现线性的复杂度而不降低性能。在图像分类和密集预测任务上,本文提出的UFO-ViT高于大多数基于Transformer的模型。 1. 论文和代码地址
UFO-ViT: High Performance Linear Vision Transformer without Softmax
论文地址:https://arxiv.org/abs/2109.14382
代码地址:未开源
复现地址:https://github.com/xmu-xiaoma666/External-Attention-pytorch#30-UFO-Attention-Usage 2. Motivation