1 분 소요

논문링크: Improved Knowledge Distillation via Teacher Assistant


한줄요약 ✔

기존 지식증류 방식의 문제점은 Teacher~Student 사이 차이가 심할 경우, 정확도가 떨어지는 경향이 있는데, 제안된 방법 (TAKD)는 Teacher과 Student 사이 Teaching Assistant라는 새로운 중간자를 추가한다.

T~TA 그리고 TA~S, 총 두 번의 지식증류를 통하여 기존 Teacher과 Student 사이 간극을 좁힌다 (T: Teacher, TA: Teaching Assistant, S: Student).


Introduction 🙌

최근 딥러닝 모델 크기가 커지면서 정확도 향상이 잇달았으나, 말단 장비들에서 해당 모델을 적용시키기 어려워 모델 압축에 대한 관심도가 높아졌다.

모델 압축에는 여러 가지 방법이 있으나, 이 글에서는 향상된 지식 증류 방법을 소개한다.

Knowledge Distillation (KD)

image

image

거대 모델 (Teacher)에서 작은 모델 (Student)로 지식(가중치)를 전달하여, Student가 거대 모델의 예측을 모방(mimic)하도록 한다.

전이 학습과의 차이점은 전이 학습은 기학습 모델이 다른 task를 수행하여 얻은 가중치를 전달하지만, 지식증류는 같은 task를 수행한 거대 기학습 모델을 이용한다.

Student Network Loss

image

\[H(): Cross\ entropy\] \[a_s: input\] \[y_r: ground-truth label\]

KL Divergence

image

\(y_s=softmax(\frac{a_s}{\tau})\): Softened ouput of Student

\(y_r=softmax(\frac{a_t}{\tau})\): Softened ouput of Teacher

\(\tau\): Temperature parameter, 증류할 지식량 결정

KL Loss

image

Soft Student predictions ~ soft Teacher labels 사이의 예측 간극 좁히기 위함.


Definition ✏

            `Given` a pre-trained model as Teacher
            `Find` the parameters of Student
            `Such that` the parameters maximize the accuracy of Student

Proposed Method 🧿

TAKD

image

  • Student 성능은 Teacher 크기에 따라 변한다
  • KD 효과는 Student 크기에 따라 변한다.

Best TA Size

image

image

Theoretical Analysis

image

image

image

TAKD는 타 KD 방법들에 비해 Local minima 지점에서 더 납작한 표면을 형성한다 (= 더 잘 수렴한다 = 학습 완료가 더 잘된다).


Experiment 👀

image

image

image


Conclusion ✨

Strength

  • Student ~ Teacher 사이 간극 줄여서 더 높은 정확도 끌어냄
  • TAKD는 타 KD 방법들에 비해 높은 성능

Reference 💕

댓글남기기