본문 바로가기

【6】최근 RNN 응용 모델 이해하고 사용하기

(3)

Show, Attend and Tell (Encoder, Decoder, Attention) 이번에 소개할 이미지 캡셔닝 논문은 2016년에 발표된 [Show, Attend and Tell: Neural Image Caption Generation with Visual Attention] 이다.이 논문은 6.2장에서 언급한 show and tell의 후속작으로 이전 논문에 Attention 매커니즘을 추가하였다. 이전 논문처럼 인코더 부분은 CNN으로 디코더 부분은 RNN(LSTM)으로 같으나 문장을 만드는 디코더 파트에 attention을 적용하였다. 그 결과 이미지 설명문의 매 단어를 생성할때 모델 스스로 이미지의 어디를 볼지 학습한다. Attention은 문자 그대로 ‘집중’하려는 것이며 이를 이미지 캡셔닝에 적용하면 위 그림처럼 이미지의 특정 부분을 더 집중해서 보는 것이다. frisbe..

Show and Tell (이미지 캡셔닝) 작성자 홍다혜 ghdek11@gmail.com / 이원재 wonway333@gmail.com

GRU - 리셋 게이트 /업데이트 게이트 / 입력정보 처리 / 출력 값 계산 작성자 홍다혜 ghdek11@gmail.com / 이원재 wonway333@gmail.com

티스토리툴바