인공지능강의
PART 5) 딥러닝 최신 트렌드
37. Ch 04. 자연어처리 (Natural Language Processing) - 09. 자연어처리 대세 Transformer - 1
Transformer
번역 문제에 RNN과 CNN을 사용하지 않고 Attention만을 이용하여 성능을 이끌어냄.
Trnasformer 네트워크 특성
. Seq2seq와 유사한 Transformer 구조 사용
. 제안하는 Scaled Dot-Product Attention과, 이를 병렬로 나열한 Multi-Head Attention 블록이 알고리즘의 핵심
. RNN의 BPTT와 같은 과정이 없으므로 병렬 계산 가능
. 입력된 단어의 위치를 표현하기 위해 Positional Encoding 사용
Word Embedding
One-Hot Encoding된 단어를 실수 형태로 변경하면서 차원의 수를 줄이는 방법
Positional Encoding
. 시간적 위치별로 고유의 Code를 생성하여 더하는 방식
. 전체 Sequence의 길이 중 상대적 위치에 따라 고유의 벡터를 생성하여 Embedding된 벡터에 더해줌
Position별로 구분되는 Encoding을 얻게 됨
Scaled Dot-Product Attention
. Query, Key-Value의 구조를 띄고있음.
. Q와 K의 비교 함수는 Dot-Product와 Scale로 이루어짐.
. Mask를 이용해 Illegal connection의 attention을 금지
. Softmax로 유사도를 0 ~ 1의 값으로 Normalize
. 유사도와 V를 결합해 Attention value 계산
38. Ch 04. 자연어처리 (Natural Language Processing) - 10. 자연어처리 대세 Transformer - 2
Multi- Head Attention
. Linear 연산 (Matrix Mult)를 이용해, Q, K, V의 차원을 감소
Q 와 K의 차원이 다른 경우 이를 이용해 동일하게 맞춤
. h개의 Attention Layer를 병렬적으로 사용 - 더 넓은 계층
. 출력 직전 Linear 연산을 이용해 Attention Value의 차원을 필요에 따라 변경
. 이 메커니즘을 통해 병렬 계산에 유리한 구조를 가지게 됨
Masked Multi-Head Attention
Self-Attention에서 자기 자신을 포함한 미래의 값과는 Attention을 구하지 않기 때문에, Masking을 사용한다.
Position-wise Feed-Forward
Add & Norm
Output Softmax
. Linear 연산을 이용해 출력 단어 종류의 수에 맞춤
. Softmax를 이용해 어떤 단어인지 Classification 문제 해결
딥러닝/인공지능 올인원 패키지 Online. | 패스트캠퍼스
Tensorflow2.0부터 Pytorch까지 딥러닝 대표 프레임워크를 정복하기. 생활 깊숙이 침투한 인공지능, 그 중심엔 딥러닝이 있습니다. 가장 강력한 머신러닝의 툴로서 주목받는 딥러닝은 생각보다 어려��
www.fastcampus.co.kr
'딥러닝' 카테고리의 다른 글
[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 56회차 미션 (0) | 2020.08.23 |
---|---|
[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 55회차 미션 (0) | 2020.08.22 |
[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 53회차 미션 (0) | 2020.08.20 |
[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 52회차 미션 (0) | 2020.08.19 |
[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 51회차 미션 (0) | 2020.08.18 |