지난 글에 이어 계속해서 논문을 정리하고 있다. 지난 글([논문리뷰]Deepfake Speech Detection Through Emotion Recognition: A Semantic Approach – Introduction) 에서는 introduction 부만 정리했고, 이번에는 시스템의 아키텍처를 보도록 하겠다.
시스템 아키텍처
이 시스템은 Speech Emotion Recognition과 Synthetic Speech Detector 두단계로 나뉜다. $x$를 입력해서 $y$를 출력하는 것이 최종 목표이고 $y$가 갖는 값은 Real 혹은 DF (Deep Fake)이다.좀더 자세히 살펴보자
Speech Emotion Recognition
Speech Emotion Recognition 블락은 [1]의 시스템과 동일하다. 감정요소가 들어간 feature를 뽑기 위해 이미 SOTA를 찍은 모델을 [1]에서 가져온것 같다. [1]에 대한 글((논문 모델 분석) 3-D Convolutional Recurrent Neural Networks With Attention Model for Speech Emotion Recognition)을 보고오면 $E_x$가 감정이라는 것을 알 수 있을것이고 $x$는 STFT밑 전처리를 거쳐 log mel, log mel delta, log mel delta delta로 변환되고, 변환되 값이 모델에 꽂히는 것을 알 수 있다.
$F_x$란 무엇일까?
여기서 $F_x$란 무엇일까? [1]의 시스템의 attention layer에서 나온 feature이다. [1]의 저자는 $F_x$를 utterence-level emotional representation 이라고 부른다. utterence가 frame으로 쪼개지지만 학습을 통해 하나의 utterence에 대한 feature를 생성해서 utterence-level emotional representation 라고 부르는 것 같다. 이 $F_x$를 Synthetic speech detector의 입력으로 사용한다.
Synthetic Speech Detector
Synthetic speech detector는 utterence $x$가 Real인지 Synthetic 인지 판별하는 분류기이다. 논문의 저자는 잘 알려진 분류기인 랜덤포레스트(Random forest (랜덤포레스트) 학습 원리, decision tree의 앙상블)를 사용했다고 한다. TTS기반의 Synthetic speech는 감정을 표현하는데는 미숙하기 때문에 $F_x$를 추출해서 입력으로 사용하는 것 같다.
Reference
[1]M. Chen, X. He, J. Yang and H. Zhang, “3-D Convolutional Recurrent Neural Networks With Attention Model for Speech Emotion Recognition,” in IEEE Signal Processing Letters, vol. 25, no. 10, pp. 1440-1444, Oct. 2018, doi: 10.1109/LSP.2018.2860246.