[딥러닝] 어텐션? attention?

D \in \mathbb{R}^{n \times d } 라는 것이 있다고 하자. d 는 feature dimension, N 은 token 갯수이다 token은 정하기 나름인데 한문장에서 그 문장을 구성하는 단어의 갯수 정도로 생각하자.

N 개의 token이 어떤 관계에 있는지 보기 위해 attention을 사용한다. 아래와 같이 아주 간단히 표현된다.

Q = D W^{Q}, K = D W^{K}, V=D W^{V} Attn(Q,K,V) = sofmax( QK^T / \sqrt{d}) K

Leave a Comment