GIST, 플로우 매칭 기반 음성향상 모델의 성능 및 속도 개선

신종원 교수 연구팀 플로우 매칭 기반
음성향상 모델의 추론 및 학습 방법을 추가하여 성능 및 속도 개선

광주과학기술원 전기전자컴퓨터공학부 신종원 교수 연구팀은 최근 플로우 매칭 (flow matching) 기반의 음성향상 모델의 속도 및 성능을 개선할 수 있는 학습방법 및 추론방법을 개발하였고 국제 음성신호처리 학회인 Interspeech 2025에 논문을 출간하였다. (논문링크: Speech Enhancement based on cascaded two flows )

신종원 교수 연구팀이 지난 음성/신호처리 학회 ICASSP 2025에 발표한 논문 (FlowSE: Flow matching based speech enhancement )에서 Flow matching을 이용한 음성 향상 모델의 가능성을 보였고, 이번 연구에서는 FlowSE의 성능을 개선하기 위한 방법인 CTFSE (Cascaded two flows based speech enhancement) 를 제시하여 성과를 거두었다.

CTFSE
두개의 flow를 붙혀 음성향상 하는 모델인 CTFSE

CTFSE는 음성향상을 위해 two stage모델인 두개의 flow를 이어 붙히는 방법을 제안하였으며 두개의 서로다른 flow를 근사하기 위하여 오직 하나의 모델만 사용했다는 점이 기존 two stage모델에서 각기 다른 모델을 사용했다는 점에서 차별점이 있다.

CTFSE에서 사용한 두개의 flow를 이어 붙히는 방식은 음성향상 뿐만 아니라 flow matching을 활용하는 모든 기법에 적용 할 수 있어 다른 분야에서 성과가 기대된다.

[논문 링크]

[논문 code 링크]

[논문 소개 영상 (한국어)]

[논문 소개 영상 (영어)]

[논문 소개 글]

Leave a Comment