Contributions of “A Statistical Model-Based Voice Activity Detection”

Contributions of “A Statistical Model-Based Voice Activity Detection

2025 Spring Speech and Audio Coding Reading Assignment 2 (신종원 교수님 수업) 이성규 제출

  • 논문이 출간된 시점 이점에 voice activity detector (VAD) 알고리즘은 heuristics에 근거하여 설계가 되었고 이것은 VAD와 관련된 parameter를 최적화하는데 있어서 어려움이 있었다.
  • VAD를 최적화하기 위하여 maximum likelihood (ML) 추정을 위한 likelihood ratio test (LRT) 기반의 통계 모델이 제안되었다.
  • 본 논문에서는 매개변수 추정을 위해 decision-directed (DD) 기법을 제안하였고 hidden Markov model (HMM) 기반의 hang-over scheme을 제안하였다.
  • 본 논문에서 제안한 기법
    • DD a priori SNR
      • 기존의 ML estimation LRTItakura-Saito distortion (ISD)를 기반한 decision rule을 유도하였고 이것이 나타내는 log likelihood ratio는 항상 0보다 컸기에 H1biased 되어있었다.
      • 본 논문에서는 DD a priori SNR estimation 기법을 적용하여 기존의 ML 기법보다 smoother estimates를 제공하였고 noise 만 있는 구간에서 likelihood ratiofluctuation을 줄였다.
    • HMM-based hang-over scheme
      • VAD에서는 이전 decision 결과를 이용해서 다음 decision을 하였다. 이러한 과정을 hang-over라고 부르는 것 같은데 이러한 hang overspeech가 있는 frame 간의 강한 correlation이 있다는 생각에서부터 시작한 것 같다.
      • 본 논문에서는 이러한 점을 모델링 하기 위해 이전 frame에만 의존하는 time-invariant first-order Markov process를 도입하여 모델링 하였고 이를 바탕으로 closed form을 갖는 decision rule을 개발하였다.
    • 본 논문에서 제안한 기법은 false alarm rate가 주어졌을 때 speech에 대한 detection 확률을 증가시켰고 다양한 조건하에서 ITU G.279B VAD보다 적은 parameter729B와 비교될 만한 혹은 높은 성능을 보였다.

 

Leave a Comment