반응형
multi-head attention layer
-
[NLP] Transformer 정리Paper review/NLP 2021. 12. 6. 15:35
Transformer 구조 우선 Transformer의 구조는 다음과 같다. Transformer과 동일한 차원으로 예제를 수행한다. "I am a student" 라는 문장을 독일어로 번역하는 예제이다. 입력 문장은 다음과 같이 (입력 sequence) x 512 입력으로 들어온다. 이때, transformer는 병렬처리를 수행하기 때문에 문장의 순서 정보를 따로 추가해 주어야 한다. 이를 위해 input embedding에 positional encoding을 추가해준다. Positional encoding Positional encoding을 다양한 방법으로 설정해 보았다. 0~1사이의 라벨 사용: 아래 예시와 같이 문장의 총 길이에 따라 delta가 달라지게 된다 (delta=단어 label 간 ..