광주과학기술원(GIST) 전기전자컴퓨터공학과 신종원 교수 연구팀은 디퓨전 (diffusion) 기반 음성향상 모델의 느린속도를 가속화하는 “플로우 매칭 (flow matching) 기반의 음성향상 모델” 기술 개발을 완료하였다. 기존의 디퓨전 모델은 음성향상을 위해 60번의 함수 호출이 필요했지만, 신종원 교수 연구팀은 플로우 매칭 기술을 사용하여 60번의 1/12 수준인 5번의 호출로 기존 디퓨전 기반의 음성향상 모델이나 fine tuning된 모델과 동등한 성능을 보였다. 플로우 매칭은 미분방정식을 이용해서 간단한 분포에서 어려운 분포를 추정하는 방식이고, 연구티믄 플로우 매칭이 디퓨전 모델의 한 예시임을 수학적으로 보이고 플로우 매칭을 이용해서 디퓨전 기반의 음성향상 모델의 가속화에 대한 가능성을 보였다. 본 연구는 음성/신호 처리분야의 저명한 학회인 ICASSP 2025에 “FlowSE: Flow Matching-based Speech Enhancement”이라는 제목으로 출간되었다.
[논문 설명 영상 (한글)] [논문 설명 영상 (영어)]
[논문 링크]