목록전체 글 (3)
Attention

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Residual Connection Layer Normalization Feed Forward Neural Network 1. Residual Connection 트랜스포머의 구조를 확인해보면, 인코더와 디코더는 Multi-Head Attention과 Feed Forward라는 sublayer로 구성되어 있다. 그리고 이들을 수행할 때마다 Add&Norm 이라는 과정을 수행하게 된다. 여기서 Add는 잔차 연결 (residual connection)을 의미하며, Norm은 정규화 과정을 말한다. 먼저, 잔차 연결에 대해서 살펴보자. 아래 그림과 같..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Attention이란 Self-Attention Multi-Head Attention Applications of Attention in Transformer 1. Attention 이란 1.1 seq2seq 모델의 한계점 Attention은 번역하면 '집중'이라는 뜻이다. 그래서 attention은 쉽게 말하면, 예측해야 할 단어와 연관이 있는 단어에 좀 더 집중해서 보겠다는 의미이다. 이러한 개념은 2015년에 발표된 'Neural machine translation by jointly learning to align and translate'..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Positional Encoding이란 Positional Encoding이 왜 필요한가? Positional Encoding 방식 Input 연산 방식 1. Positional Encoding 이란 트랜스포머에서는 가장 먼저 텍스트 데이터를 컴퓨터가 이해할 수 있는 값으로 벡터화하기 위하여 input embedding을 진행한다. embedding은 기존에 학습되어 있는 임베딩 모델을 통해 변환하였으며, 해당 논문에서는 512차원의 벡터로 각 토큰을 표현하였다. 이 값은 결국 비슷한 의미를 갖는 토큰일수록 가깝게 위치하게 되어, 의미적 유사성을 ..