window 개념을 살펴보기 전에, 왜 신호를 짧은 시간 단위로 나눠 주파수 분석을 수행하는지에 대해 알아봅시다.
STFT를 하는 이유
음성 신호는 time-varying, non-stationary 특성을 가지고 있어서 정확한 주파수 분석을 수행하는데 어려움이 있습니다. 하지만, 음성 신호를 짧은 간격으로 쪼개 보면, 신호의 특성이 시간에 따라 천천히 변하여 준주기적인 특성을 갖기 때문에 작은 시간 단위로 나눠 short-time fourier transform(STFT)를 수행해 주파수 분석을 할 수 있습니다.
window와 frame
non-stationary한 음성신호는 작은 시간 단위로 쪼개 stationary한 청크로 잘라 처리해줄 수 있습니다. 윈도잉(windowing)은 신호의 어느 부분을 볼 지 정하는 창으로 window를 shift하면서 신호를 작은 청크(=frame)로 자를 수 있습니다. 이 frame으로부터 얻은 stationary한 신호에 STFT, FFT와 같은 기법을 적용할 수 있습니다.
Rectangular window(RW)의 time response
Hamming Window(HW)의 time response
RW와 HW의 frequency response
Cutoff frequency
표에서 볼 수 있듯이, HW는 RW의 cutoff frequency의 정확히 2배 값을 갖기 때문에 bandwidth도 2배 넓은 것을 확인할 수 있습니다. HW의 경우, bandwidth가 넓기 때문에(= wideband) frequency resolution이 좋지 않습니다. 반대로 RW의 경우, bandwidth가 좁기 때문에(= narrowband) frequency resolution이 HW에 비해 상대적으로 더 좋습니다.
bandwidth와 freqeuncy resolution 간 관계
왼쪽은 narrowband, 오른쪽은 wideband일 경우를 나타낸 그림입니다. narrowband의 경우 식별 가능한 주파수 성분이 2개 있지만 392Hz의 경우 1개인 것을 확인할 수 있습니다. 이를 통해, bandwidth가 넓어질수록(=cutoff frequency가 커질수록) frequency resolution(분해능)이 떨어짐을 알 수 있습니다.
Attenuation
HW의 경우, RW보다 attenuation이 더 크게 일어나 noise로 분류되는 passband 외부의 필요없는 주파수 성분(그래프 상에서 side lobe로 나타남)이 거의 포함되지 않기 때문에 상대적으로 오차가 작은 것을 볼 수 있습니다. RW의 경우, attenuation이 덜 일어나기 때문에 상대적으로 포함하는 noise가 많아져 오차가 커집니다.
정리하자면.. Rectangular Window(RW)는 attenuation이 상대적으로 덜 일어나 noise를 더 많이 포함하게 되지만 frequency resolution이 HW에 비해 더 좋다는 장점을 가집니다. 반대로, Hamming Window(HW)는 attenuation이 크게 일어나 noise가 작아지지만 frequency resolution이 RW에 비해 안 좋다는 단점을 가집니다.
- Cutoff Frequency: system을 통해 흐르는 energy가 통과하지 않고 감소하기 시작하는 frequency response의 경계
'연구 노트 > 음성신호처리' 카테고리의 다른 글
Wiener filter: 신호 필터링, 예측을 하는데 쓰는 linear filter (2) | 2024.03.13 |
---|---|
MVDR beamformer 완전 정복 (1) | 2024.03.12 |
Multi-Channel 신호처리 & 빔포밍 (Beamforming)에 대한 고찰 (1) | 2024.03.07 |
FFT 수행 시 zero padding이 frequency resolution에 미치는 영향 (0) | 2024.02.14 |
음성신호처리에서 Pre-emphasis filtering을 하는 이유 (1) | 2023.11.10 |