Coherence 개념으로 Diffuse noise 모델링
본문 바로가기
연구 노트/음성신호처리

Coherence 개념으로 Diffuse noise 모델링

by NEWSUN* 2024. 5. 9.

Coherence 정의를 알아보고 다채널 음성신호처리에서 쓰이는 중요한 개념인 Interchannel Coherence에 대해 정리해봅시다. 추가로, Diffuse noise가 수학적으로 어떻게 모델링되는지 살펴봅시다.

 

Coherence

$$C_{xy}(f)=\frac{|G_{xy}(f)|^2}{G_{xx}(f)G_{yy}(f)}$$

 

두 신호 $x(t)$와 $y(t)$ 사이의 magnitude squared coherence [1]는 실수 값 함수로 정의됩니다. 여기서, $G_{xy}(f)$는 $x$와 $y$ 사이의 cross-spectral density이고 $G_{xx}(f)$와 $G_{yy}(f)$는 각각 $x$와 $y$의 auto spectral desity 입니다. 일반적으로, 주파수 영역에서 계산되며 0에 가까울수록 두 신호 간 관련성이 적고 1에 가까울수록 두 신호 간 관련성이 높습니다.

 

$$C_{xy}(f)=\frac{|H(f)G_{xx}(f)|^2}{G_{xx}(f)G_{yy}(f)}=\frac{|H(f)G_{xx}(f)|^2}{G^2_{xx}(f)|H(f)|^2}=\frac{|G_{xx}(f)|^2}{G^2_{xx}(f)}=1$$

 

임펄스 응답 $h(t)$를 갖는 선형 시스템을 가정한다면, 시간 영역에서 $y(t)=h(t)*x(t)$이고 이것을 푸리에 변환한 주파수 영역에서는 $Y(f)=H(f)X(f)$로 나타낼 수 있을 것입니다. $H(f)$는 선형 시스템의 전달 함수 (Transfer function)으로 이상적인 시스템의 경우, $G_{yy}= |H(f)|^2 G_{xx}(f)$와 $G_{xy}=H(f)G_{xx}(f)$로 바꿀 수 있기 때문에 위 항등식이 성립함을 알 수 있습니다. 따라서, 단일 입력 $x(t)$와 단일 출력 $y(t)$를 갖는 이상적인 선형 시스템의 경우, coherence는 1이 됩니다. 

 

Interchannel Coherence

 

Multi-Channel 음성신호처리에서 각 마이크 간 상관관계를 나타내는 통계치인 Interchannel Coherence에 대해 알아봅시다. 위 식에서, AIR (Acoustic Impulse Response)은 특정 소스에서 마이크까지 음성이 전파되는 여러 개의 전파 경로를 합산한 결과를 말합니다. AIR은 직접 경로 (direct path), 초기 에코 (early echoes), 그리고 잔향 (reverberation)으로 구성돼 있으며 위와 같이 분해할 수 있습니다. 통계학적 관점 [2]에서, 잔향이 수천에서 수백만 개의 음향 경로의 중첩을 발생시키기 때문에 큰 수의 법칙을 따르게 됩니다. 이 법칙에 의해 세 가지 유용한 특성을 갖게 됩니다. 

 

* 큰 수의 법칙: 표본집단의 크기가 커지면 표본평균이 모평균에 가까워짐 / 표본 수 많음 통계적 정확도 향상 

 

Reverberation Time이 0.25s인 경우, AIR의 shape

 

첫 번째로, 잔향은 공간 내 RT (Reverberation Time)에 의해 시간에 따라 크기 (magnitude)가 기하급수적으로 감소하는 평균값이 0인 가우시안 노이즈 신호로 모델링할 수 있습니다. 일반적으로, RT는 위 그림에서 보이는 잔향 (reverberation)의 꼬리 부분이 60dB까지 감소하는데 걸리는 시간을 말합니다. RT 값이 크다는 건 특정 공간에서 소리가 감쇠되는데 오랜 시간이 걸린다는 걸 의미합니다.

 

두 번째로, 서로 다른 두 주파수 $\nu$와 $\nu'$에서의 Fourier transform $r_{ij}(\nu)$ 간의 공분산 (covariance)인 $\mathbb{E}(r_{ij}(\nu)r^*_{ij}(\nu'))$은 $\nu$와 $\nu'$의 차이로 인해 빠르게 감소합니다. 

 

세 번째로, RT가 충분히 크다면, 잔향 음장 (reverberant sound field)은 확산성 (diffuse), 균질성 (homogenous), 등방성 (isotrophic)을 갖게 됩니다. 이 성질을 모두 갖는 것을 diffuse noise라고 부릅니다. diffuse noise의 coherence는 아래 식으로 정의할 수 있으며 싱크 함수 (sinc function)으로 풀어줄 수 있습니다. 

 

 

좀 더 자세히 식을 뜯어보겠습니다. 위에서 언급한 세가지 중 마지막 특성에 의해, 두 채널 $i$와 $i'$ 간 정규화된 상관관계 (diffuse noise의 coherence, 다른 말로 interchannel coherence)를 연산할 수 있습니다. $\mathbb{E}^\textrm{spat}$은 특정 공간 안에 소스와 마이크 배열의 가능한 모든 절대 위치에서의 공간 기댓값 (spatial expectation)을 나타냅니다. 그리고 $\ell_{ii'}$는 마이크 간 거리를 나타냅니다. 최종적으로 싱크함수로 정리된 식을 보면, source index를 나타내는 $j$값에 더는 의존하지 않는 것을 볼 수 있습니다.

 

AIR의 reverberant한 부분의 Interchannel coherence

 

AIR의 잔향 부분에서의 interchannel coherence $\Omega_{ii'}(\nu)$를 나타낸 그림입니다. AIR의 잔향은 마이크 간 거리를 나타내는 $\ell_{ii'}$와 주파수 $\nu$ 값에 따라 달라집니다. 그림에서 알 수 있듯이, 마이크 간 거리가 가깝고 저주파일수록, interchannel coherence는 큰 값을 갖습니다.

 

Diffuse noise

데카르트 좌표계 (Cartesian coordinate system)에서 구면 좌표계 (Spherical coordinate system)로 변환했을 때, diffuse noise의 pseudo-coherence matrix [3]를 정의한 식은 위와 같습니다. 모든 방위각 (azimuth), 고도각 (elevation) 범위에서, 다시 말해, 전방향 (diffuse field)에서 구형으로 전파되는 신호 파워를 나타냅니다.  

 

Diffuse noise는 수백, 수천 개의 음향 전파 경로의 중첩으로 발생하기 때문에, 일반적인 reverberant sound를 만드는데 쓰이는 image model method [4]로 만들기 어렵습니다. 대신, ANF (arbitrary noise field) generator [5]를 통해 생성할 수 있습니다. 레퍼런스를 달아두었으니, 나중에 공간 음향을 만들 때 참고하면 좋을 듯 합니다.

 

Reference

[1] “Coherence (signal processing),” Wikipedia, Aug. 16, 2022. https://en.wikipedia.org/wiki/Coherence_(signal_processing)

‌[2] S. Gannot, E. Vincent, S. Markovich-Golan, and A. Ozerov, “A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 4, pp. 692–730, Apr. 2017, doi: https://doi.org/10.1109/taslp.2016.2647702.

[3] C. Pan and J. Chen, “A Framework of Directional-Gain Beamforming and a White-Noise-Gain-Controlled Solution,” IEEE/ACM transactions on audio, speech, and language processing, vol. 30, pp. 2875–2887, Jan. 2022, doi: https://doi.org/10.1109/taslp.2022.3202127.

‌[4] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small‐room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, Apr. 1979, doi: https://doi.org/10.1121/1.382599.

‌[5] P. Habets, I. Cohen, and S. Gannot, “Generating nonstationary multisensor signals under a spatial coherence constraint,” Journal of the Acoustical Society of America, vol. 124, no. 5, pp. 2911–2917, Nov. 2008, doi: https://doi.org/10.1121/1.2987429.