목록전체 글 (5)
Attention

Whisper 논문인 ' Robust Speech Recognition via Large-Scale Weak Supervision'와 해당 git repo를 기반으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. whisper 개요모델 작동 방식모델 성능모델 관련 이슈1. whisper 개요OpenAI Whisper는 OpenAI가 2022년에 공개한 자동 음성 인식(ASR) 모델로, 약 68만 시간 분량의 대규모 다국어 음성-텍스트 데이터를 학습하여 개발되었다. 논문 “Robust Speech Recognition via Large-Scale Weak Supervision”에서 소개된 이 모델은 이름 그대로 대규모의 약한 감독(Weak Supervision) 데이터를 통해 학습되었다. 다시 ..

이전까지는 로컬에서만 AI 모델을 돌려보고 Gradio 정도 사용해서 간단하게 구현하는 수준이었는데, 최근에 AI 모델을 웹 화면에 붙이는 업무를 맡게 되었다. 이를 위해서는 웹 요청으로 입력을 받아 > AI 모델에 넣고 > 그 결과를 응답하는 구조가 필요한데 여기서 WSGI라는 개념을 처음 접하게 되었다. 그래서 이번에는 WSGI에 대해 알아보려고 한다. 0. 파이썬 웹 애플리케이션파이썬 애플리케이션은 웹 서버와 어떤 구조로 통신하는걸까? 우선 파이썬은 웹 요청을 처리하는 기본적인 능력이 없다. 그래서 웹 요청을 받아주는 웹 서버가 존재하고 이를 파이썬에 전달하는 구조로 통신이 이뤄진다. 하지만 웹 서버는 파이썬으로 작성되어 있는 웹 애플리케이션을 이해하지 못하며, 파이썬 또한 웹 서버의 요청을 이..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Residual ConnectionLayer NormalizationFeed Forward Neural Network 1. Residual Connection트랜스포머의 구조를 확인해보면, 인코더와 디코더는 Multi-Head Attention과 Feed Forward라는 sublayer로 구성되어 있다. 그리고 이들을 수행할 때마다 Add&Norm 이라는 과정을 수행하게 된다. 여기서 Add는 잔차 연결 (residual connection)을 의미하며, Norm은 정규화 과정을 말한다. 먼저, 잔차 연결에 대해서 살펴보자. 아래 그림과 같이 일..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Attention이란Self-AttentionMulti-Head AttentionApplications of Attention in Transformer1. Attention 이란1.1 seq2seq 모델의 한계점Attention은 번역하면 '집중'이라는 뜻이다. 그래서 attention은 쉽게 말하면, 예측해야 할 단어와 연관이 있는 단어에 좀 더 집중해서 보겠다는 의미이다. 이러한 개념은 2015년에 발표된 'Neural machine translation by jointly learning to align and translate' 논문에서 ..

트랜스포머 논문인 'Attention Is All You Need'을 기반으로 세부 사항들을 추가적으로 공부하여 정리하였습니다. 글의 순서는 다음과 같습니다. Positional Encoding이란Positional Encoding이 왜 필요한가? Positional Encoding 방식Input 연산 방식 1. Positional Encoding 이란 트랜스포머에서는 가장 먼저 텍스트 데이터를 컴퓨터가 이해할 수 있는 값으로 벡터화하기 위하여 input embedding을 진행한다. embedding은 기존에 학습되어 있는 임베딩 모델을 통해 변환하였으며, 해당 논문에서는 512차원의 벡터로 각 토큰을 표현하였다. 이 값은 결국 비슷한 의미를 갖는 토큰일수록 가깝게 위치하게 되어, 의미적 유사성을 표..