ITU-T P.862: PESQ(Perceptual Evaluation of Speech Quality) 요약

ITU-T P.862: PESQ(Perceptual Evaluation of Speech Quality) 요약
PESQ(Perceptual Evaluation of Speech Quality)는 ITU-T에서 제안한 음성 품질 평가
방식으로, 주관적인 청취 테스트를 대체하기 위한 객관적 평가 모델이다. 이 방식은
**3.1kHz 대역폭(narrow-band)**을 갖는 전화망이나 음성 코덱을 대상으로 end-to-end
음성 품질을 예측하기 위해 고안되었다. PESQ는 원본 신호X(t)와 네트워크 혹은 코덱을 통해 왜곡된 신호 Y(t)를 비교하여, 사람이
Y(t)를 들었을 때 줄 수 있는 MOS(Mean Opinion Score) 점수를 추정한다. 전체 알고리즘은
크게 전처리 단계(level & time alignment)와 지각적 모델(perceptual model)로 구성되어
있다. 1. Level and Time Alignment Pre-processing
System Gain 계산: 원본과 왜곡 신호 간의 레벨 차이를 보정
IRS 필터링: 실제 전화기의 청취 환경을 모델링하는 필터 적용
시간 정렬 (Time Alignment): 다양한 단계의 정렬 기법을 사용해 정확한 delay 추정
Envelope-based alignment: 신호의 envelope cross-correlation 기반 지연 추정
Fine time alignment: 프레임 단위 cross-correlation과 histogram 기반 delay 보정
Utterance splitting: 발화 구간을 delay 변화에 따라 분할하여 정렬 정밀도 향상
Perceptual realignment: 왜곡이 큰 구간을 다시 정렬하여 초기 오류 수정
2. Perceptual Model
청각 모델 기반 계산
FFT 설정: 8kHz 및 16kHz에서 각각 256-point FFT, 50% overlap
청감 임계치 모델링: Bark scale 기준으로 threshold 적용
Power/Loudness scaling: SPL 기준으로 정규화된 계수 적용
IRS 수신 필터 적용: 실 사용자의 청취 환경 반영
Active Speech 구간 검출: 유효 발화 구간만 평가에 사용
왜곡 분석 단계
Pitch Power Density 계산: Bark 스케일 변환 후 밀도 계산
전달 함수 보정: 원본과 왜곡 신호의 spectral 차이 보정
Loudness Density 계산: Zwicker의 loudness 모델 기반 변환
Disturbance Density 계산: 마스킹 효과를 고려한 loudness 차이 계산
비대칭 인식 모델링: 사람의 인지적 왜곡 민감도를 반영하는 factor 적용
Frame별 왜곡 정리 및 무시 조건 처리: Delay 급변 시 프레임 무시
Bad Interval Realignment: 왜곡이 큰 구간의 재정렬 및 재계산
3. Score Aggregation and Final PESQ Score
Frame 단위 → Interval 단위 → 전체 신호로 계층적 통합
각 단계에서 L6 norm 및 L2 norm을 사용하여 왜곡 통합
최근성(recency)을 반영하여 사용자가 후반부 음질에 민감한 점을 모델링
최종 PESQ 점수는 선형 결합으로 계산되며, 일반적으로 1.0 ~ 4.5 범위로 표현됨
4. 평가 및 성능
PESQ는 기존 MOS 테스트와 비교했을 때 평균 상관계수(correlation coefficient)가 약
0.935에 달하며, 상당히 높은 신뢰도를 보여준다. 또한, 검증 실험에서 69.2%의 경우 0.25 MOS 이내, 91.1%의 경우 0.5 MOS 이내로 예측
정확도를 보였다. 알려지지 않은 테스트셋에 대해서도 안정적인 성능을 유지했다. 결론
PESQ는 사람이 느끼는 음성 품질을 높은 정확도로 예측할 수 있도록 설계된 모델로, 실제
청취 실험 없이도 객관적인 평가 지표를 제공해준다. 현재는 narrow-band를 주로 대상으로
하고 있지만, 이후 WB-PESQ(P.862.2) 등으로 확장되어 광대역 음성 품질 평가에서도 널리
사용되고 있다. 이러한 PESQ의 구조와 평가 방식은 음성 인코딩, VoIP, 통신 품질 보장 등의 다양한
응용에서 매우 중요한 기준으로 활용되고 있다

Leave a Comment