この記事では、Transformerの中心的な役割を果たすMulti-Head Attentionについて解説する。 Transformerのほかの機構の詳細な解説はせず、完全にMulti-Head Attention特化の解説となるので、ほかの機構や全体観を掴みたい方はこちらの記事をご一読いただきたい。 この記事はまずはScaled Dot-Product AttentionというMulti-Head Attentionの中で使われている核心部分についてこれでもかと詳しく解説したのちに、本 ...