본문 바로가기

딥러닝

[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 54회차 미션

인공지능강의

PART 5) 딥러닝 최신 트렌드

37. Ch 04. 자연어처리 (Natural Language Processing) - 09. 자연어처리 대세 Transformer - 1

 

 Transformer

번역 문제에 RNN과 CNN을 사용하지 않고 Attention만을 이용하여 성능을 이끌어냄.

 

Trnasformer 네트워크 특성

. Seq2seq와 유사한 Transformer 구조 사용

. 제안하는 Scaled Dot-Product Attention과, 이를 병렬로 나열한 Multi-Head Attention 블록이 알고리즘의 핵심

. RNN의 BPTT와 같은 과정이 없으므로 병렬 계산 가능

. 입력된 단어의 위치를 표현하기 위해 Positional Encoding 사용

 

Word Embedding

One-Hot Encoding된 단어를 실수 형태로 변경하면서 차원의 수를 줄이는 방법

 

Positional Encoding

. 시간적 위치별로 고유의 Code를 생성하여 더하는 방식

. 전체 Sequence의 길이 중 상대적 위치에 따라 고유의 벡터를 생성하여 Embedding된 벡터에 더해줌

Position별로 구분되는 Encoding을 얻게 됨

 

Scaled Dot-Product Attention

. Query, Key-Value의 구조를 띄고있음.

. Q와 K의 비교 함수는 Dot-Product와 Scale로 이루어짐.

. Mask를 이용해 Illegal connection의 attention을 금지

. Softmax로 유사도를 0 ~ 1의 값으로 Normalize

. 유사도와 V를 결합해 Attention value 계산

 

 

38. Ch 04. 자연어처리 (Natural Language Processing) - 10. 자연어처리 대세 Transformer - 2

 

Multi- Head Attention

. Linear 연산 (Matrix Mult)를 이용해, Q, K, V의 차원을 감소

Q 와 K의 차원이 다른 경우 이를 이용해 동일하게 맞춤

. h개의 Attention Layer를 병렬적으로 사용 - 더 넓은 계층

. 출력 직전 Linear 연산을 이용해 Attention Value의 차원을 필요에 따라 변경

. 이 메커니즘을 통해 병렬 계산에 유리한 구조를 가지게 됨

 

Masked Multi-Head Attention

Self-Attention에서 자기 자신을 포함한 미래의 값과는 Attention을 구하지 않기 때문에, Masking을 사용한다.

 

Position-wise Feed-Forward

 

Add & Norm

 

Output Softmax

. Linear 연산을 이용해 출력 단어 종류의 수에 맞춤

. Softmax를 이용해 어떤 단어인지 Classification 문제 해결

 

 

https://bit.ly/3g72Rmm

 

딥러닝/인공지능 올인원 패키지 Online. | 패스트캠퍼스

Tensorflow2.0부터 Pytorch까지 딥러닝 대표 프레임워크를 정복하기. 생활 깊숙이 침투한 인공지능, 그 중심엔 딥러닝이 있습니다. 가장 강력한 머신러닝의 툴로서 주목받는 딥러닝은 생각보다 어려��

www.fastcampus.co.kr