목록AI (4)
Attention

Whisper 논문인 ' Robust Speech Recognition via Large-Scale Weak Supervision'와 해당 git repo를 기반으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. whisper 개요모델 작동 방식모델 성능모델 관련 이슈1. whisper 개요OpenAI Whisper는 OpenAI가 2022년에 공개한 자동 음성 인식(ASR) 모델로, 약 68만 시간 분량의 대규모 다국어 음성-텍스트 데이터를 학습하여 개발되었다. 논문 “Robust Speech Recognition via Large-Scale Weak Supervision”에서 소개된 이 모델은 이름 그대로 대규모의 약한 감독(Weak Supervision) 데이터를 통해 학습되었다. 다시 ..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Residual ConnectionLayer NormalizationFeed Forward Neural Network 1. Residual Connection트랜스포머의 구조를 확인해보면, 인코더와 디코더는 Multi-Head Attention과 Feed Forward라는 sublayer로 구성되어 있다. 그리고 이들을 수행할 때마다 Add&Norm 이라는 과정을 수행하게 된다. 여기서 Add는 잔차 연결 (residual connection)을 의미하며, Norm은 정규화 과정을 말한다. 먼저, 잔차 연결에 대해서 살펴보자. 아래 그림과 같이 일..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Attention이란Self-AttentionMulti-Head AttentionApplications of Attention in Transformer1. Attention 이란1.1 seq2seq 모델의 한계점Attention은 번역하면 '집중'이라는 뜻이다. 그래서 attention은 쉽게 말하면, 예측해야 할 단어와 연관이 있는 단어에 좀 더 집중해서 보겠다는 의미이다. 이러한 개념은 2015년에 발표된 'Neural machine translation by jointly learning to align and translate' 논문에서 ..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Positional Encoding이란Positional Encoding이 왜 필요한가? Positional Encoding 방식Input 연산 방식 1. Positional Encoding 이란 트랜스포머에서는 가장 먼저 텍스트 데이터를 컴퓨터가 이해할 수 있는 값으로 벡터화하기 위하여 input embedding을 진행한다. embedding은 기존에 학습되어 있는 임베딩 모델을 통해 변환하였으며, 해당 논문에서는 512차원의 벡터로 각 토큰을 표현하였다. 이 값은 결국 비슷한 의미를 갖는 토큰일수록 가깝게 위치하게 되어, 의미적 유사성을 표..