Transformers 是一种基于自注意力机制的架构,主要架构由左侧的编码器(Encoder)和右侧的解码器(Decoder)构成。本次我们主要来看解码器如何工作。 一、Transformers整体架构概述 Transformers 是一种基于自注意力机制的架构,最初在2017年由Vaswani等人在论文《Attention ...