图解 Transformer [译]
深入浅出地探索 Transformer 背后的数学原理,了解其工作原理。在本篇博客文章中,我们将详细展示一个 Transformer 模型在数学上的端对端(end-to-end)实例。我们的目标是彻底理解模型是如何运作的。为了让这个过程更加易于操作,我们将对模型进行大量简化。考虑到我们需要亲手进行不少数学计算,我们会减少模型的维度。比如说,我们不会使用 512 维的嵌入(embeddings),而是选用 4 维的嵌入。这样做可以让数学部分更容易理解!我们会使用随机生成的向量和矩阵,但你也可以用自己的数值来跟随实例。
January 4, 2024
View Article