1. 注意力机制和自注意力机制有什么区别? 传统注意力机制:由于传统的 Encoder-Decoder 架构在建模过程中,下一时刻的计算过程会依赖于上一个时刻的输出,即整个过程需要按序进行,而这种固有的属性就限制了模型不能以并行的方式进行计算。 自注意力机制 ...