Teager energy operator(TEO) features

음성(speech)를 이용해 감정인식을 하기 위해 어떤 speech feature를 사용하는지 중요하다. 감정 인식에서 사용되는 feature 중에는 Teager energy operator (TEO) features라는 것이 있다. 무슨 의미인지는 잘 모르겠지만 정리해보려고한다.   Teager energy operator(TEO) feature 정의 TEO feature는 어떤 연산에 의해 만들어지는 feature 이다.  $s[n]$을 speech signal이라고 하면 TEO는 아래와 같이 정의된다. 무슨의미인지는 잘 모르겠다.[1] $$\phi[s[n]] = s^2[n]-s[n-1]s[n+1]$$ … Read more

음성신호의 Linear Predictive Analysis

음성신호를 분석하는 방법중에 Linear Predictive Analysis가 있다. speech signal이 s[n]이라고 하자. s[n] 값을 추정하기 위해 그전의 s[n-1],s[n-2],s[n-3],….등을 이용하는 방법이 있다. 다시 말하면 $\tilde{s}[n] = \sum_{k=1}^p \alpha_k s[n-k]$라 하여 $s[n]$을 추정하는 방법이다. 이 때 계수 $\alpha_k$가 중요한 역할을 한다. 적합한 $\alpha_k$를 찾는 방법은 여러 방법이 있으니 서치를 해보도록 하고 이 $\alpha_k$를 이용하여 vocal tract filter를 다음과 … Read more

cepstrum(켑스트럼)과 echo(에코)의 관계

지난 글에서 cepstrum에 대해 알아보았다.(cepstrum(켑스트럼)의 정의 ) 켑스트럼은 수학적으로 보면 별것이 없다. 어려운점이라면 로그 복소수를 사용한다는 점이다. 이번에는 켑스트럼을 왜 하는지를 보기 위해 켑스트럼과 에코의 관계를 보도록 하겠다. 많은 직관을 주니까 보면 좋겠다. 켑스트럼과 에코의 관계를 보기 위하여 가장 간단한 에코모델을 보도록 하자. 간단한 에코 모델 $x(t)$를 신호라고 하면 다음과 같은 간단한 에코모델을 생각할 수 … Read more

phase vocoder에 대해서!

phase voder에 대해서 알아보기 위하여 페이퍼를 읽게 되었다. 읽은 페이퍼는 아래와 같다. Phase vocoder Publisher: Nokia Bell Labs J. L. Flanagan; R. M. Golden All Authors 무려 1966년에 작성되었는데 음성을 공부하려면 거의 무조건 공부해야 하는것 같다. 음성데이터를 전송하고 받을 때 음성을 컴퓨터가 알아들을 수 있게 코딩하는 작업이 필요한데 phase vocoder를 이용하면 time scale과 frequency scale 압축, 확장이 가능하며 이것으로 경제적인 … Read more

Cepstrum(켑스트럼)의 정의

speech processing에서 중요한 cepstrum에 대해 알아보겟습니다. 눈치를 챘을지 모르겠지만 cepstrum은 spectrum에서 spec의 순서를 바꾼것임을 알 수 있습니다. 켑스트럼은 echo에 대해 분석을 하기 위해 태어났다고 하는데요. 에코가 뭔가를 반사하는 것처럼 spectrum 의 spec이 반사되는 것에서 모티브를 따서 spectrum이라고 이름을 붙힌것으로 보입니다. 켑스트럼의 정의 자체는 어렵지 않으니 정의 내려보죠 cepstrum 의 정의 신호 $x[n]$이 있다고 합시다. $x[n]$의 … Read more

Mel spectrum 과 MFCC (Mel Frequency Cepstral Coefficient)의 의미

음성(speech)신호 $x[n]$을 분석하기 위해 신호 $x[n]$을 frame 단위 별로 짤라서 STFT를 한다. STFT를 보고 해석할 수 있는점이 많지만 그 이상으로 해석하기 위해 나온것이 Mel spectrum 과 MFCC 에 대해 살펴보도록 하자. STFT의 단점이라면 무엇일까? 신호 $x[n]$을 프레임별로 짤라 DFT를 구하는 과정이 STFT이다. STFT의 값은 아래와 같이 표현이 가능하다. $$X_m[k]$$ 위 값의 의미는 m번째 프레임의 DFT라는 의미이다.STFT만으로도 … Read more

[음성신호처리] DFT Filter bank (이산푸리에변환 필터뱅크)

이번글에서는 이산푸리에 변환 필터뱅크 (DFT Filter Bank)에 대해 알아보겠습니다. DFT filter bank 는 말그대로 출력값이 DFT값이 나오도록 하는 필터 뱅크 입니다. DFT Filter bank DFT Filter bank 또한 디지털 필터 뱅크이죠. 디지털 필터 뱅크에 대해서는 이 글([음성신호처리] Digital Filter Banks (디지털 필터 뱅크))을 한번 보시고요. (Uniform) DFT filter bank diagram DFT filter bank 를 나타내는 … Read more

[음성신호처리] Digital Filter Banks (디지털 필터 뱅크)

디지털 필터 뱅크에 대해 알아보겠습니다. Digital Filter Banks의 이름에서 유추할 수 있듯 Digital Filter들의 모임이라고 생각할 수 있어요. 이번 글에서는 Digital Filter Bank 에 대해 짧은 소개 해보도록 하겠습니다. Digital Filter Banks (디지털 필터 뱅크) 디지털 필터 뱅크란 필터의 모임입니다. 디지털 신호의 종류에는 신호 $x[n]$이 있을 때 이 신호를 여러개의 필터에 통과시켜서 분석하는 analysis 필터가 … Read more

[음성신호처리] 푸리에변환(Fourier Transform)에서 복소로그(complex logarithm) 사용시 주의점

푸리에 변환에 대하여 복소로그 사용시 주의사항이 있습니다. 무엇일까요? 이번에는 그것에 대해 알아보겠습니다. 이번글을 진행하기 전해 복소로그에 대한 글([음성신호처리] 복소로그(complex logarithm))과 이산시간 푸리에 변환에 대한 글(Discrete Time Fourier Transform (이산시간 푸리에변환,DTFT))을 읽고 오시면 좋겠습니다. 푸리에 변환의 Principal Phase 푸리에 변환 $X(e^{j\omega})$가 있다고 합시다. 이 푸리에 변환의 principal phase는 $-\pi$에서 $\pi$사이이기 때문에 phase 가 불연속 입니다. 아래와 … Read more

[음성신호처리] 복소로그(complex logarithm)

로그에 대해 알고 계시죠? 그런데, 복소수에 대한 로그를 구할 수 있을가요? 보통 양수에 대해서만 로그를 구했죠. 그런데 실제로는 복소수 전체에 대해서 로그를 정의할 수 있습니다. 이번 글에서는 복소수에 대한 로그함수를 정의해보겠습니다. 복소로그(complex logarithm) $z\neq 0$인 복소수 $z$에 대하여 $z$는 다음과 같이 표현할 수 있죠. $$z = \mid z \mid e^{j \angle arg(z)}$$  이것을 이용해서 로그 … Read more