Ensemble knowledge distillation of self-supervised speech models 요약

Ensemble knowledge distillation of self-supervised speech models 요약
논문 정보
논문 제목: Ensemble Knowledge Distillation for Self-Supervised Speech Models
저자: Kuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen, Wei-Cheng Tseng,
Kai-Wei Chang, Hung-yi Lee

논문 요약
이 논문은 음성 관련 self-supervised learning (SSL) model 인 HuBERT, RobustHuBERT 그리고
WavLM 을 동시에 이용하여 knowledge distillation 하는 방법을 제시한다. 위의 세가지 모델을
teacher 모델로 활용하여 teacher 모델의 hidden layer에서 출력된 결과를 결합하는 방법으로
averaging, concatenation 그리고 Multiple prediction heads를 이용하는 Ensemble Knowledge
Distillation (EKD) 기법을 제시하고 있다. Phoneme Recognition (PR), Speaker Identification (SID),
Emotion Recognition (ER) 그리고 Automatic (ASR) 네 가지 downstream task에서 실험 결과를 보
이며, clean 음성과 noisy 음성에 대해서 실험 결과를 비교하고 있다.

연구 목적
음성 관련 SSL model 하나 만을 이용하여 knowledge distillation 하는 방법은 이미 연구되어오고
있다. 또한, pre-trained 된 여러 개의 SSL model 을 teacher로 활용하여 knowledge distillation
하는 방법도 제시되었다. 그러나 여러 개의 SSL model을 활용 시 loss를 weighted sum을 하는 부
분에서 weight를 설정할 때 downstream task 에 영향을 받는 경향을 보인다. 저자는 EKD 방법을
제시하여 weight를 사용하는 부분을 대체하였고, 여러 downstream task 에 성능 향상을 보였다.
또한, noisy 음성에 대해서 성능을 평가하여 EKD가 noisy 한 환경에 robust 하다는 것을 보였다.

방법론
여러 개의 teacher model의 i 번째 hidden layer결과와 한 개의 student model의 결과를
prediction heads를 통과시킨 결과를 비교해서 distillation 하는 방법을 세가지 제시함
1. Layerwise-averaged
A. Teacher model 의 hidden layer 결과를 layer 마다 평균을 취함
2023 Spring Digital Speech Signal Process HW5 20224021 Lee Seong-gyu
B. Layer 마다 하나의 prediction heads만 필요
2. Layerwise-concatenated
A. Teacher model 의 hidden layer 결과를 layer마다 concatenate 취함
B. Layer 마다 하나의 prediction heads 만 필요
3. Multiple sets of predictions heads
A. 각 layer에서 각각의 teacher model 에 대응하는 prediction heads 설정함
B. 각 teacher model 마다 multiple sets of prediction heads를 이용

실험 세팅
1. 음성 SSL speech model benchmark 인 hidden SUPERB challenge 에서 제시한 PR, SID, ER,
ASR 에 대하여 실험
2. Teacher model 은 noisy 한 환경을 담고 있는 Musan, WHAM!, DNS, 그리고 CHiME3 데이
터셋에서 미리 학습
3. HuBERT (HB), RobustHuBERT (RHB), WavLM (WL) 를 teacher model로 활용
4. Knowledge distillation 은 LibriSpeech 셋을 이용하여 학습됨

결과
1. Multi prediction head 를 이용해 teacher 모델을 결합하는 방법이 Layerwise-average와
Layerwise-concatenated 보다 성능이 우수함
2. 기존의 여러 teacher 를 결합하여 knowledge distillation 를 수행하는 것보다 multi
prediction head 를 이용하여 teacher 를 결합하는 EKD 기법이 성능 면에서 두개의 케이
스를 제외하고 대체적으로 높은 경향을 띔
3. Clean과 noisy 한 경우 EKD를 활용할 경우 성능향상을 보임
4. 기존의 방법보다 parameter 수를 줄이면서 성능향상을 보임

결론
– 적은 parameter를 이용하고도 성능향상과 noise에 대한 robustness를 보이는 학습방법을 제
시함
– 기존의 knowledge distillation 이 갖고 있던 학습 시 downstream task에 따른 weight 설정
문제를 해결하고, 4개의 downstream task 에서 성능 향상을 보임

Leave a Comment