[논문리뷰] Modifying Flow Matching for Generative Speech Enhancement (Roman Korostik, Rauf Nasretdinov, Ante Jukić) in ICASSP 2025

[논문리뷰] Modifying Flow Matching for Generative Speech Enhancement (Roman Korostik, Rauf Nasretdinov, Ante Jukić) in ICASSP 2025  저자들은 생성모델인 Flow matching을 denoising과 dereverberation을 위한 speech enhancement에 적용하였다. Flow matching은 Diffusion의 느린 inference 속도를 빠르게 하는 기법으로써 주목받고 있다. baseline 모델이 50회의 함수 호출을 필요로 하는데 비해 저자들은 단 한번의 호출로 denoising에서는 diffusion 계열의 baseline의 … Read more

Contributions of “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator”

Contributions of “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator”   본 논문의 출간전에 음성 향상(Speech Enhancement) 기법들은 단순한 spectral subtraction이나 Wiener filtering 기반의 방법에 의존하고 있었다. 저자들은 short-time spectral amplitude(STSA) 를 minimum mean square error (MMSE) 기준으로 추정하는 새로운 기법을 제안하였다. 기존의 방법과 달리 STFT 계수의 크기(amplitude)를 추정한다. 본 논문에서 제안된 … Read more

Contributions of “PEFAC – A Pitch Estimation Algorithm Robust to High Levels of Noise”

Contributions of “PEFAC – A Pitch Estimation Algorithm Robust to High Levels of Noise”   저자들은 speech의 fundamental frequency(F0)를 negative SNR 일 때도 robust하게 추정할 수 있는 새로운 알고리즘인 PEFAC (Pitch Estimation Filter with Amplitude Compression)을 제안하였다. 본 논문에서 제안된 주요 기법들과 의의는 아래와 같다. Log-frequency domain에서의 harmonic summing filter 적용 log-frequency power spectral domain에서 … Read more

Contributions of “A Statistical Model-Based Voice Activity Detection”

Contributions of “A Statistical Model-Based Voice Activity Detection” 2025 Spring Speech and Audio Coding Reading Assignment 2 (신종원 교수님 수업) 이성규 제출 논문이 출간된 시점 이점에 voice activity detector (VAD) 알고리즘은 heuristics에 근거하여 설계가 되었고 이것은 VAD와 관련된 parameter를 최적화하는데 있어서 어려움이 있었다. VAD를 최적화하기 위하여 maximum likelihood (ML) 추정을 위한 likelihood ratio test (LRT) … Read more