[논문 개선 아이디어] Diffusion-Based Generative Speech Source Separation

Diffusion-Based Generative Speech Source Separation 개선 아이디어에 대해

이번에도 논문 개선 아이디어이다. Diffusion-Based Generative Speech Source Separation [1]에서 사용했던 Drift term 을 좀 더 일반화 할 뿐이다. [1]에서는 forward process를 아래와 같이 정의 했었다.

Diffusion-Based Generative Speech Source Separation 에서의 Forward process

그림1 2

그림2

개선 아이디어

내가 하고자 하는 것은 SDE 식에 있는 \gamma 를 상수로 사용하는 것이 아니라 스칼라함수인 \gamma(t) 를 사용하는 것이다.

\begin{align}d\mathbf{x}_t = -\gamma(t) \bar{\mathbf{P}}\mathbf{x}_t dt + g(t) d \mathbf{w}, \quad \mathbf{x}_0 = \mathbf{s} \end{align}

식 (1)에서 \gamma 대신 \gamma(t) 가 사용된 것을 확인해보자.

개선된 SDE의 평균(Mean)과 공분산(Covariance)

SDE를 활용한 score based modeling 에서는 p_{0t}(\mathbf{x}_t | \mathbf{x}_0)를 구하는 일이다. 다행히도 식(1)은 Linear SDE이므로 아래와 같이 가우시안 분포를 따른다.

\begin{align} p_{0t} (\mathbf{x}_t | \mathbf{x}_0) =\mathcal{N} (\mathbf{x}_t ; \mu_t , \mathbf{\Sigma}_t) \end{align}

이제 수식 (2) 에서 \mu_t, \Sigma_t 를 구해보도록 하자. Linear SDE의 평균과 공분산 구하는 방법 계산을 쭉하면 되긴 된다.  그리고 1차 선형 미분방정식 풀이 방법도 참고 하길 바란다. 위에서 소개한 글에서 제시하는 풀이방법을 활용하면 mean 과 covariance 는 아래와 같이 구할 수 있다.

\begin{align} \mu_t = e^{-\int_0^t \gamma(\tau) d \tau} \mathbf{s} + ( 1 - e^{-\int_0^t \gamma(\tau) d\tau})\bar{\mathbf{s}} \end{align} \begin{align} \mathbf{\Sigma}_t = \int_0^t g^2 (\tau) d\tau \mathbf{P} + e^{-\int_0^t 2 \gamma(\tau) d\tau} \int_0^t e^{\int_0^\tau 2\gamma (s) ds } g^2 (\tau) d\tau \bar{\mathbf{P}}\end{align}

SDE의 평균과 공분산이 따르는 미분방정식에 (3), (4)를 대입하면 미분방정식의 해임을 보일 수 있다.  StoRM 을 개선하는 방식과 마찬가지로 적분이 잘 되도록 \gamma(t) 를 설정해야겠다.

 

Reference

[1] R. Scheibler, Y. Ji, S. -W. Chung, J. Byun, S. Choe and M. -S. Choi, “Diffusion-Based Generative Speech Source Separation,” ICASSP 2023 – 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 2023, pp. 1-5, doi: 10.1109/ICASSP49357.2023.10095310.

 

Leave a Comment