반응형
Attention is all you need
-
[NLP] Attention Is All You Need 번역 및 정리 (Transformer)Paper review/NLP 2021. 12. 6. 01:25
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1706.03762.pdf 주요 기여: RNN을 제거함으로써 병렬처리를 가능하게 함 Transformer 제안 0. Abstract 보통의 sequence transduction model들은 인코더와 디코더를 포함하는 rnn 혹은 cnn을 기반으로 하거나 SOTA 모델은 attention 메커니즘을 통해 인코더와 디코더를 연결한다. 우리는 rnn과 cnn을 완전 배제하고 attention 메커니즘만을 사용하는 단순한 아키텍쳐인 transformer를 제안한다. 실험 결과, 우리 모델이 병렬화가 훨씬 용이하고 학습 시간이 훨씬 더 적지만 성능은 높다는 것을 보인다 (28.4 BLEU on the WMT 2..