过去八年,Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You ...
这是一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。这种网络的特点是时间常数可变,输出通过求解微分方程得到。它在稳定性、表达能力和时间序列预测方面都优于传统模型。