'음성신호처리' 태그의 글 목록
본문 바로가기

음성신호처리7

[세미나] Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming SummaryMVDR 빔포머 계산에 필요한 NCM을 추정하는 time-frequency mask estimator를 제안함제안된 mask estimator는 desired source의 방향 정보만을 이용해 추정되며 noise와 interference를 줄이는 postfilter로서 개발된 directional gain framework [2]를 사용함별도의 학습이 필요하지 않기 때문에, neural network 기반 estimator에서 겪는 generalization 문제를 겪지 않음closed form으로 정리되기 때문에, spatial clustering 기반 estimator에서의 반복 연산 과정을 필요로 하지 않으며 permutation 문제를 겪지 않음MPDR / mDF 빔포머와 비교했을 .. 2024. 5. 20.
Python으로 STFT 직접 구현해보기 STFT (Short-time Fourier Transform)  정의와 개념 및 필요성을 알아보고 코드로 직접 구현해봅시다. STFT음성 신호는 시간에 따라 변화하고 (time-varying) 신호의 통계적 특성이 지속적으로 변하는 (nonstationary) 성질을 가지고 있기 때문에 전체 신호를 가지고 분석하는데 어려움이 있습니다. 하지만, 음성 신호를 아주 짧은 부분으로로 나누어 보면 각 세그먼트가 일정한 주기로 패턴이 반복되는 걸 관찰할 수 있습니다. 이러한 이유로, 음성 신호 처리에서는 윈도우 (window)를 사용하여 신호를 짧은 세그먼트로 나눈 후 각 세그먼트에 대해 DFT (discrete fourier transform)를 수행하는 STFT (short-time fourier trans.. 2024. 5. 17.
Coherence 개념으로 Diffuse noise 모델링 Coherence 정의를 알아보고 다채널 음성신호처리에서 쓰이는 중요한 개념인 Interchannel Coherence에 대해 정리해봅시다. 추가로, Diffuse noise가 수학적으로 어떻게 모델링되는지 살펴봅시다. Coherence$$C_{xy}(f)=\frac{|G_{xy}(f)|^2}{G_{xx}(f)G_{yy}(f)}$$ 두 신호 $x(t)$와 $y(t)$ 사이의 magnitude squared coherence [1]는 실수 값 함수로 정의됩니다. 여기서, $G_{xy}(f)$는 $x$와 $y$ 사이의 cross-spectral density이고 $G_{xx}(f)$와 $G_{yy}(f)$는 각각 $x$와 $y$의 auto spectral desity 입니다. 일반적으로, 주파수 영역에서 계.. 2024. 5. 9.
Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA) 음성 품질(Speech Quality)을 측정하는데 쓰이는 4가지 객관적 평가지표 (evaluation metric) - SNR, SI-SDR, PESQ, STOI에 대해 알아봅시다. 추가로, 주관적 평가지표 MOS, MUSHRA 개념을 살펴보고 CSIG, CBAK, 그리고 COVL로 구성된 합성측정 방법에 대해서도 정리해봅시다.  * 음성 품질 (Speech Quality)음성 신호를 처리할 때, 디지털 형식으로 표현된 소리를 reconstruction하여 원신호와 똑같이 들리게 하는 것을 목표로 합니다. 이때 Speech quality는 재구성된 신호가 원래의 음성신호와 얼마나 유사한가를 나타냅니다. Speech quality가 높을수록, 부자연스러운 왜곡이 없다는 점에서 naturalness 자연스.. 2024. 4. 24.
FFT 수행 시 zero padding이 frequency resolution에 미치는 영향 STFT 결과로 얻게 된 frequency bin이 무엇인지 알아보고 FFT 수행 과정에서 zero padding이 frequency resolution에 어떤 영향을 미치는지 알아봅시다. STFT (Short-time Fourier Transform) 자연적으로 발화되는 음성은 시간에 따라 계속해서 변하는 성질을 가지고 있기 때문에, 음성 신호를 표현하는데 있어 일반적인 Fourier 표현 방법을 적용하는 건 한계가 있습니다. 이 문제를 해결하기 위해, 음성 신호를 주파수 영역에서 분석할 수 있도록, STFT, 즉, 음성 신호를 짧은 세그먼트 단위로 나눠 DFT를 수행하게 됩니다.   Frequency binSTFT 결과는 frequency, time 값들로 이루어진 2차원 행렬로서 표현이 가능한데 이.. 2024. 2. 14.
음성신호처리에서 Pre-emphasis filtering을 하는 이유 오디오 신호 처리에 사용되는 기술인 Pre-emphasis filtering에 대해 알아봅시다. Pre-emphasis filtering 위 그림은 넓은 주파수 대역에서 음성 신호의 average magnitude spectrum을 나타낸 것입니다. 저주파에서는 높은 에너지를 가지고 있는 반면, 고주파로 갈수록 에너지가 줄어드는 것을 관찰할 수 있습니다. 이는 인간의 발성기관과 소리의 특성에 의해 발생하게 되는데 이 내용은 밑에서 자세하게 설명하도록 하겠습니다. 위에서 보았던 것처럼 고주파의 에너지가 감소하는 문제를 pre-emphasis filtering이라는 전처리 방법을 통해 해결할 수 있습니다. 사람의 음성이 저주파 대역에서 강조되고 고주파 대역에서는 크기가 작아지는 특성이 있기 때문에 전처리를 .. 2023. 11. 10.