[논문리뷰] Modifying Flow Matching for Generative Speech Enhancement (Roman Korostik, Rauf Nasretdinov, Ante Jukić) in ICASSP 2025

[논문리뷰] Modifying Flow Matching for Generative Speech Enhancement (Roman Korostik, Rauf Nasretdinov, Ante Jukić) in ICASSP 2025
 저자들은 생성모델인 Flow matching을 denoising과 dereverberation을 위한 speech enhancement에 적용하였다. Flow matching은 Diffusion의 느린 inference 속도를 빠르게 하는 기법으로써 주목받고 있다. baseline 모델이 50회의 함수 호출을 필요로 하는데 비해 저자들은 단 한번의 호출로 denoising에서는 diffusion 계열의 baseline의 모델보다 PESQ, SI-SDR,ESTOI, 음성인식에서 좋은 성능을 보였고 dereverberation에서는 SI-SDR만 좋은 성능을 보였다.
 저자들은 Flow matching을 speech enhancement에 적용하기 위하여 크게 네가지 방법을 제안했다.
 Informed prior (IP): 학습을 하기 위해서 noisy speech 정보를 추가하였다. 이 방식은 기존 diffusion model에서도 많이 하던 방법이다.
 Starting from the mean (SfM): flow matching, diffusion model에서 numerical integration의 시작점은 가우시안 분포로부터 시작하지만 저자들은 mean에서 출발하는 방법을 제안하였다.
 Early Stopping (ES): numerical integration을 시작점 t=0에서부터 끝점이 t=1에서 끝내는 것이 아니라 0.8과 0.9사이에서 끝냈다.
 Data Prediction (DP): flow matching loss를 관찰하면 vector field를 추정하기도 하지만 clean speech를 직접 추정하는 형태라는 점에서 착안하여 clean speech를 직접 추정하였다.
 Denoising task에서는 DP에 IP, SfM, ES를 모두 추가 하여야만 PESQ와 음성인식 성능 향상을 볼 수 있었다. Dereverberation에서는 IP, SfM, ES등의 기법이 효용성은 없었다. Denoising task에서는 IP, SfM, ES등을 사용하지 않았을 때 flow matching과 DP를 비교 시 성능에는 차이가 없지만 IP, SfM, ES 적용시 Flow matching에서는 성능 하락이 보였고 DP에서는 성능향상이 있는 것으로 보아 DP 방식 활용 시 IP, SfM, ES등을 적용할만해 보인다. Dereverberation task에서는 IP, SfM, ES등을 사용하지 않았을 때 DP 방식이 flow matching 방식보다 PESQ 0.3 정도로 높은 성능을 보았다. 다만 IP, SfM, ES등을 추가할 때 flow matching 방식과 DP방식 모두 성능 하락을 보였다. Dereverberation을 위해서는 다른 기법이 필요해보인다

Leave a Comment