Contributions of “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator”

Contributions of “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator”

 

  • 본 논문의 출간전에 음성 향상(Speech Enhancement) 기법들은 단순한 spectral subtraction이나 Wiener filtering 기반의 방법에 의존하고 있었다.
  • 저자들은 short-time spectral amplitude(STSA) minimum mean square error (MMSE) 기준으로 추정하는 새로운 기법을 제안하였다. 기존의 방법과 달리 STFT 계수의 크기(amplitude)를 추정한다.
  • 본 논문에서 제안된 주요 기법들과 의의는 아래와 같다.
  • SNR 기반 MMSE estimator
    • 음성 스펙트럼의 amplitude 추정 시, a priori SNR a posteriori SNR 정보를 이용하여 gain function을 설계하였다.
  • Signal presence uncertainty 반영
    • spectral component에서 음성이 실제 존재할 확률을 고려하여 estimator를 설계하였고 signal absence probability를 반영하여 noisy한 상황에서 안정적인 추정 결과를 얻을 수 있도록 하였다.
  • Decision-directed 기반의 SNR 추정
    • a priori SNR estimator을 stably 실행하기 위해 이전 프레임에 대한 estimate를 현재 프레임의 estimate에 추정하도록 decision-directed (DD) 방식을 설계하였다.
    • 제안된 방식으로 기존 기법 대비 noise reduction을 더욱 잘하게 하였고, 특히 colorless residual noise가 있을 때 음성향상을 더 잘할 수 있게 하였다.

 

Leave a Comment