[아이디어] Diffusion based Separation에 BBED 적용

지난 글들에서 Diffusion based separation ( [논문리뷰]Diffusion-Based Generative Speech Source Separation )과 Diffusion based enhancement (https://arxiv.org/abs/2212.11851)에 대해 알아보았다. 그리고 이것을 개선하기 위한 아이디어를 생각했다. ([논문 개선 아이디어] Diffusion-Based Generative Speech Source Separation) ([논문식 유도 및 추가 아이디어] StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation ). 그런데 내가 생각아이디어를 구현한 논문이 하나있다. 이것을 줄여서 BBED라고 한다 (https://arxiv.org/pdf/2302.14748.pdf). BBED에서는 clean speech가 diffusion process를 따라 noisy speech를 평균으로 하는 가우시안 분포로 옮겨가는 것을 표현했다. 굳이 enhancement 뿐만 아니라 separation에서도 각각의 단일 utterance를 mixture를 평균으로 갖는 distribution 옮겨 갈 수도 있다는 생각에서 아이디어를 제시해본다. 기호는 이전 논문에서 사용한 기호 그대로 사용한다.

Separation에 BBED 적용

기호는 이전 논문의 기호를 따라서 했다. separation을 위해 아래와 같은 SDE를 사용한다.

dx = - \frac{1}{1-t} \bar{P} x dt + g(t) dw g(t) = \sqrt{c} k^t

g(t)식은 BBED논문에서 나왔다. 위의 식을 사용할 경우 x의 mean과 covariance는 각각 아래와 같이 표현된다.

\mu_t = (1-t)s + t \bar{s} \Sigma_t = \lambda_1 P + \lambda_2 \bar{P} \lambda_1 = \frac{c}{\ln k^2}(k^{2t}-1) \lambda_2 =\sigma^2(t)

\sigma^2(t)는 BBED에서 나온것처럼 아래와 같이 된다.스크린샷 2024 04 14 204919

여기서 Ei는 exponential integral을 의미한다.

Leave a Comment