Attention
-
[NLP] Transformer 정리Paper review/NLP 2021. 12. 6. 15:35
Transformer 구조 우선 Transformer의 구조는 다음과 같다. Transformer과 동일한 차원으로 예제를 수행한다. "I am a student" 라는 문장을 독일어로 번역하는 예제이다. 입력 문장은 다음과 같이 (입력 sequence) x 512 입력으로 들어온다. 이때, transformer는 병렬처리를 수행하기 때문에 문장의 순서 정보를 따로 추가해 주어야 한다. 이를 위해 input embedding에 positional encoding을 추가해준다. Positional encoding Positional encoding을 다양한 방법으로 설정해 보았다. 0~1사이의 라벨 사용: 아래 예시와 같이 문장의 총 길이에 따라 delta가 달라지게 된다 (delta=단어 label 간 ..
-
[NLP] Attention Is All You Need 번역 및 정리 (Transformer)Paper review/NLP 2021. 12. 6. 01:25
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1706.03762.pdf 주요 기여: RNN을 제거함으로써 병렬처리를 가능하게 함 Transformer 제안 0. Abstract 보통의 sequence transduction model들은 인코더와 디코더를 포함하는 rnn 혹은 cnn을 기반으로 하거나 SOTA 모델은 attention 메커니즘을 통해 인코더와 디코더를 연결한다. 우리는 rnn과 cnn을 완전 배제하고 attention 메커니즘만을 사용하는 단순한 아키텍쳐인 transformer를 제안한다. 실험 결과, 우리 모델이 병렬화가 훨씬 용이하고 학습 시간이 훨씬 더 적지만 성능은 높다는 것을 보인다 (28.4 BLEU on the WMT 2..