[논문리뷰] Modifying Flow Matching for Generative Speech Enhancement (Roman Korostik, Rauf Nasretdinov, Ante Jukić) in ICASSP 2025
저자들은 생성모델인 Flow matching을 denoising과 dereverberation을 위한 speech enhancement에 적용하였다. Flow matching은 Diffusion의 느린 inference 속도를 빠르게 하는 기법으로써 주목받고 있다. baseline 모델이 50회의 함수 호출을 필요로 하는데 비해 저자들은 단 한번의 호출로 denoising에서는 diffusion 계열의 baseline의 모델보다 PESQ, SI-SDR,ESTOI, 음성인식에서 좋은 성능을 보였고 dereverberation에서는 SI-SDR만 좋은 성능을 보였다.
저자들은 Flow matching을 speech enhancement에 적용하기 위하여 크게 네가지 방법을 제안했다.
Informed prior (IP): 학습을 하기 위해서 noisy speech 정보를 추가하였다. 이 방식은 기존 diffusion model에서도 많이 하던 방법이다.
Starting from the mean (SfM): flow matching, diffusion model에서 numerical integration의 시작점은 가우시안 분포로부터 시작하지만 저자들은 mean에서 출발하는 방법을 제안하였다.
Early Stopping (ES): numerical integration을 시작점 t=0에서부터 끝점이 t=1에서 끝내는 것이 아니라 0.8과 0.9사이에서 끝냈다.
Data Prediction (DP): flow matching loss를 관찰하면 vector field를 추정하기도 하지만 clean speech를 직접 추정하는 형태라는 점에서 착안하여 clean speech를 직접 추정하였다.
Denoising task에서는 DP에 IP, SfM, ES를 모두 추가 하여야만 PESQ와 음성인식 성능 향상을 볼 수 있었다. Dereverberation에서는 IP, SfM, ES등의 기법이 효용성은 없었다. Denoising task에서는 IP, SfM, ES등을 사용하지 않았을 때 flow matching과 DP를 비교 시 성능에는 차이가 없지만 IP, SfM, ES 적용시 Flow matching에서는 성능 하락이 보였고 DP에서는 성능향상이 있는 것으로 보아 DP 방식 활용 시 IP, SfM, ES등을 적용할만해 보인다. Dereverberation task에서는 IP, SfM, ES등을 사용하지 않았을 때 DP 방식이 flow matching 방식보다 PESQ 0.3 정도로 높은 성능을 보았다. 다만 IP, SfM, ES등을 추가할 때 flow matching 방식과 DP방식 모두 성능 하락을 보였다. Dereverberation을 위해서는 다른 기법이 필요해보인다