논문
-
[논문] Attention Is All You Need, 2017개발/머신러닝-딥러닝 2022. 6. 13. 23:22
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 앞서 소개했던 BERT의 근본이 되는 방법인 Transformer를 소개하는 논문이다. 트랜스포머 계열은 자연어 처리 뿐만 아니라 여러 데이터에서 사용되는데, Vision 분야의 ViT, 시계열 분석의 TFT 등이 있다. 논문 배경 RNN계열의 모델은 시퀀스 모델링이나, 언어모델, 기계번역과 같은 분야에서 SOTA를 달성해왔다. 그러나 RNN 모델은 hidden states에서는 $h_t$를 계산하기 위해서 $h_{t-1}$이 반드시 필요한 재귀형(혹은 순차적) 모델이므로 병렬화할수 없었다. 이로 인해 메모리 제약이 걸리고, 학습과정에서 batch에 제한이 생겨 긴 시퀀스를 학습하는 것이 힘들었다. 어텐션 구조는 입출력 시퀀스의 거리에 상관..
-
[논문] BERT, 2018개발/머신러닝-딥러닝 2022. 6. 9. 17:49
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! BERT, Bidrectional Encoder Representations from Transformers 최근 자연어 처리 분야에서 빠질 수 없는 이름이다. 트랜스포머 계열 중 인코더에 집중한 모델이며, 이를 베이스로 다양한 BERT모델이 만들어졌다. 논문은 여기 배경 사전학습 모델은 자연어 처리 분야에서 굉장히 효과적이다. 현재 사전학습 모델은 크게 2가지가 있는데, ELMo와 같이 특정 Task를 중심으로 사전 학습된 표현식을 추가적으로 사용하는 feature-based모델과 GPT와 같이 Task관련 파라미터를 최소화하고 사전학습된 파라미터를 fine-tuning하는 모델이 있다. 그러나 위 두 예시는 Unidirectional구조..
-
[논문] - A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music, 2018개발/머신러닝-딥러닝 2022. 6. 8. 00:06
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 2018년에 Google Magenta에서 제안한 MusicVAE 모델이다. 논문 배경 음악 분야에서 VAE는 자주 사용되지 않는데, 음악과 같은 시퀀스 데이터에서는 autoregressive decoder를 사용하게되고, 이는 autoencoder에서 인코딩한 latent vector를 무시할 정도로 강력한 방법이기 때문에 인코딩된 특징들을 충분히 활용할 수 없다. 작은 시퀀스에서는 활용 가능 하지만 대부분의 음악 데이터는 길이가 긴 시퀀스를 가지므로 적용하기 힘들다. 이러한 이슈를 해결하기 위해서 계층적 recurrent decoder를 적용한 recurrent VAE 모델을 만들었다. 전체 시퀀스를 하나의 latent vector로 만..
-
[논문] CNN - AlexNet, 2012개발/머신러닝-딥러닝 2022. 3. 8. 18:01
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 2012년에 CNN을 사용해 ILSVRC에서 압도적으로 1등한 모델. 기반이 되는 논문은 AlexNet 이다. 배경 기계학습의 성능을 높이기 위해서는 큰 데이터셋이 필요하다. 큰 데이터를 잘 학습하기 위해서는 용량이 큰 모델이 필요하다. CNN은 비슷한 규모의 피드포워드 신경망보다 간선과 파라미터가 적으므로 학습이 쉽다. (물론 best-perfomance는 조금 떨어질 수 있다.) 모델 특징 모델은 이미지의 속성을 찾는 5개의 Conv층과 속성으로 이미지를 분류하는 3개의 FC층이 있다. 여기서 Conv층을 조금이라도 제거한다면 성능이 떨어짐을 확인했다. 두 개의 GPU - 피드포워드 신경망보다 적지만 여전히 GPU로 학습하기에는 용량이 ..