개발/머신러닝-딥러닝
-
[논문] Attention Is All You Need, 2017개발/머신러닝-딥러닝 2022. 6. 13. 23:22
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 앞서 소개했던 BERT의 근본이 되는 방법인 Transformer를 소개하는 논문이다. 트랜스포머 계열은 자연어 처리 뿐만 아니라 여러 데이터에서 사용되는데, Vision 분야의 ViT, 시계열 분석의 TFT 등이 있다. 논문 배경 RNN계열의 모델은 시퀀스 모델링이나, 언어모델, 기계번역과 같은 분야에서 SOTA를 달성해왔다. 그러나 RNN 모델은 hidden states에서는 $h_t$를 계산하기 위해서 $h_{t-1}$이 반드시 필요한 재귀형(혹은 순차적) 모델이므로 병렬화할수 없었다. 이로 인해 메모리 제약이 걸리고, 학습과정에서 batch에 제한이 생겨 긴 시퀀스를 학습하는 것이 힘들었다. 어텐션 구조는 입출력 시퀀스의 거리에 상관..
-
[논문] BERT, 2018개발/머신러닝-딥러닝 2022. 6. 9. 17:49
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! BERT, Bidrectional Encoder Representations from Transformers 최근 자연어 처리 분야에서 빠질 수 없는 이름이다. 트랜스포머 계열 중 인코더에 집중한 모델이며, 이를 베이스로 다양한 BERT모델이 만들어졌다. 논문은 여기 배경 사전학습 모델은 자연어 처리 분야에서 굉장히 효과적이다. 현재 사전학습 모델은 크게 2가지가 있는데, ELMo와 같이 특정 Task를 중심으로 사전 학습된 표현식을 추가적으로 사용하는 feature-based모델과 GPT와 같이 Task관련 파라미터를 최소화하고 사전학습된 파라미터를 fine-tuning하는 모델이 있다. 그러나 위 두 예시는 Unidirectional구조..
-
[논문] - A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music, 2018개발/머신러닝-딥러닝 2022. 6. 8. 00:06
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 2018년에 Google Magenta에서 제안한 MusicVAE 모델이다. 논문 배경 음악 분야에서 VAE는 자주 사용되지 않는데, 음악과 같은 시퀀스 데이터에서는 autoregressive decoder를 사용하게되고, 이는 autoencoder에서 인코딩한 latent vector를 무시할 정도로 강력한 방법이기 때문에 인코딩된 특징들을 충분히 활용할 수 없다. 작은 시퀀스에서는 활용 가능 하지만 대부분의 음악 데이터는 길이가 긴 시퀀스를 가지므로 적용하기 힘들다. 이러한 이슈를 해결하기 위해서 계층적 recurrent decoder를 적용한 recurrent VAE 모델을 만들었다. 전체 시퀀스를 하나의 latent vector로 만..
-
[DACON] 한국어 문장 관계 분류 w/KoBART개발/머신러닝-딥러닝 2022. 6. 2. 11:31
DACON 대회 한국어 문장 관계 분류 경진대회 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io KoBART를 이용한 한국어문장 학습을 공부하다가 실습하면서 해보면 좋을 것 같아서 선정했다. 코드공유란의 아래 코드를 참고해서 작성했다 Hugging Face를 활용한 Modeling(public: 0.841) 한국어 문장 관계 분류 경진대회 dacon.io 0. 목표 문장1과 문장2의 관계에 대해서 정확하게 분류하는 것. Label은 참, 거짓, 중립이 있다. 1. 데이터 확인 Train_set에는 문장 두 개와 label이 있으며, Test_set에는 문장 두개가 있다. Train_set에는 약 25000개의 데이터가 존재한다. 2. 데이터 처리 데이터에서 한글과 숫자만..
-
[논문] CNN - AlexNet, 2012개발/머신러닝-딥러닝 2022. 3. 8. 18:01
제가 이해한 내용을 정리한 글입니다. 오류가 있으면 고쳐주세요! 2012년에 CNN을 사용해 ILSVRC에서 압도적으로 1등한 모델. 기반이 되는 논문은 AlexNet 이다. 배경 기계학습의 성능을 높이기 위해서는 큰 데이터셋이 필요하다. 큰 데이터를 잘 학습하기 위해서는 용량이 큰 모델이 필요하다. CNN은 비슷한 규모의 피드포워드 신경망보다 간선과 파라미터가 적으므로 학습이 쉽다. (물론 best-perfomance는 조금 떨어질 수 있다.) 모델 특징 모델은 이미지의 속성을 찾는 5개의 Conv층과 속성으로 이미지를 분류하는 3개의 FC층이 있다. 여기서 Conv층을 조금이라도 제거한다면 성능이 떨어짐을 확인했다. 두 개의 GPU - 피드포워드 신경망보다 적지만 여전히 GPU로 학습하기에는 용량이 ..
-
[Kaggle] Titanic - Machine Learning from Disaster개발/머신러닝-딥러닝 2022. 1. 23. 02:29
이제 케글도 정리하고 싶어서 시작한다. 첫번째 글은 모두가 아는 타이타닉 생존자 예측. 0. 목표 데이터는 타이타닉호의 승객들에 대한 정보와 생존 유무가 있으며, TrainSet의 생존 유무를 label로 하여 학습한 후에, TestSet의 승객정보를 통해 생존 유무를 예측하는 것이 목표이다. 1. 전체 데이터 확인 총 12개의 feature가 있고, 이 중 Survived를 제외한 나머지 정보들을 이용해 Survived를 예측하는 것이 목표이다. 이 데이터에는 대부분 결측치가 없으나, 선실을 나타내는 Cabin에 결측이가 많이 있다. 총 891개의 데이터 중 687개의 결측치는 굉장히 크다. 또 Age에도 꽤 많은 결측값들이 있다. 숫자 데이터간 상관계수 확인. Survived와 상관계수가 높은 데이터..