attention
-
[논문] Attention Is All You Need, 2017개발/머신러닝-딥러닝 2022. 6. 13. 23:22
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 앞서 소개했던 BERT의 근본이 되는 방법인 Transformer를 소개하는 논문이다. 트랜스포머 계열은 자연어 처리 뿐만 아니라 여러 데이터에서 사용되는데, Vision 분야의 ViT, 시계열 분석의 TFT 등이 있다. 논문 배경 RNN계열의 모델은 시퀀스 모델링이나, 언어모델, 기계번역과 같은 분야에서 SOTA를 달성해왔다. 그러나 RNN 모델은 hidden states에서는 $h_t$를 계산하기 위해서 $h_{t-1}$이 반드시 필요한 재귀형(혹은 순차적) 모델이므로 병렬화할수 없었다. 이로 인해 메모리 제약이 걸리고, 학습과정에서 batch에 제한이 생겨 긴 시퀀스를 학습하는 것이 힘들었다. 어텐션 구조는 입출력 시퀀스의 거리에 상관..