Transformerで使われているPositional EncodingであるSinusoidal Positional Encodingについて徹底的に解説して さらに、そこから相対位置エンコーディングへの橋渡しをこの記事では行う。 なるべく直感的に、なぜこのような手法がとられるのか、なぜうまくいくのか、現時点での僕ができうる限り解説する。 この記事を読めばInput Embeddingがどういう気持ちで何をやっているのかがわかることと思う。 必要な前提知識は三角関数だけである。(線形代 ...