手撕 Transformer (2):嵌入层和位置编码的实现 - 茴香豆的茴

Wait 5 sec.

【摘要】本文详细讲解了Transformer输入部分的实现,包括嵌入层和位置编码。嵌入层将词汇数字表示转换为向量表示,并通过乘以$\sqrt{d_{model}}$来放大信号。位置编码为并行处理的Transformer补充顺序信息,与嵌入向量相加后输入模型。文章通过PyTorch代码演示了嵌入层的实现细节,... 阅读全文