'연구 노트/음성신호처리' 카테고리의 글 목록
본문 바로가기

연구 노트/음성신호처리16

2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2 질문1. quefrency aliasing이 뭔지 설명해주세요.  2. filtering을 할 때 desired와 undesired가 각각 뭔가요?뭘 분석하고자 하는지, 목적에 따라 다를 것임voiced이냐 unvoiced이냐를 판별할 때 desired는 excitation  3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요? highpass liftering할 때 desired: excitation 분리할 수 있게 됨 → pitch periodlowpass liftering할 때 desired: vocal tract 분리할 수 있게 됨 → formant   4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?힌트: 발화자가 무슨 말.. 2024. 6. 7.
2024.05.30 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 1/2 질문1. Homomorphic system 정의, Homomorphic system을 하는 이유가 뭘까요? 2. 아래 그림 설명해보기                                3. complex logarithm을 정의할 때, uniqueness 문제가 발생하는 이유  4. log의 taylor formular 급수가 저렇게 나오는 이유 5. cepstrum을 어떻게 구할까요?cepstrum은 FFT한 spectrum에서 log 취해준 후 inverse fourier transformcomplex cepstrum의 경우, 실수부는 그냥 cepstrum 구하는 것과 동일함, 허수부는 phase 구한 걸 IFFT하면 됨+) cepstrum은 MFCC 구할때 중요한 개념! 6. pole은 뭘 모.. 2024. 5. 30.
2024.05.23 신입생 세미나 Frequency-Domain Representations 질문 정리 질문0. FFT는 Fast fourier transform의 약자임 1. 아래 그림에서 2초 기준으로 32000sample이 들어갔을 때, x1[n], x2[n], x[3]의 length는? 2. QMF에서 CQF가 나오게된 이유flat gain이 곱해져야 왜곡이 최소화됨magnitude가 각각 다른 값으로 곱해져 linear하지 않아 위상 왜곡이 발생함3. filter bank 나눠서 하는 거랑 FFT해서 frequency bin을 절반으로 나눠서 처리하는 거랑 뭔 차이인지? FFT해서 frequency bin을 절반으로 나눠서 처리하는 것 → 채널의 bandwidth가 일정함filter bank를 고주파, 저주파로 나눔 → 일정하지 않은 bandwidth를 가진 채널로 구성할 수 있고 non-unif.. 2024. 5. 23.
Python으로 STFT 직접 구현해보기 STFT (Short-time Fourier Transform)  정의와 개념 및 필요성을 알아보고 코드로 직접 구현해봅시다. STFT음성 신호는 시간에 따라 변화하고 (time-varying) 신호의 통계적 특성이 지속적으로 변하는 (nonstationary) 성질을 가지고 있기 때문에 전체 신호를 가지고 분석하는데 어려움이 있습니다. 하지만, 음성 신호를 아주 짧은 부분으로로 나누어 보면 각 세그먼트가 일정한 주기로 패턴이 반복되는 걸 관찰할 수 있습니다. 이러한 이유로, 음성 신호 처리에서는 윈도우 (window)를 사용하여 신호를 짧은 세그먼트로 나눈 후 각 세그먼트에 대해 DFT (discrete fourier transform)를 수행하는 STFT (short-time fourier trans.. 2024. 5. 17.
2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. $R=L=N$일 때가 왜 practical하지 않을까? 2. rectanglur windowfrequency selectivity를 생각해봤을 때, practical하지 않음 3. DFT 샘플보다 frame shift가 커질 수 없는 이유inverse DFT 과정에서 time domain aliasing이 발생하게 됨 4. 여러 개의 bandpass로 분석하는 게 어떤 의의를 가질까요?각 frequency band마다 gain을 줌으로써 frequency 대역별로 가공할 수 있음 5. 위 filter에서 왜 modulation을 2번 하는 걸까? modulation이 STFT에 포함된 shift 과정이기 때문DFT, IDFT 과정을 보여준 것 6. gain이 없다면, perfect하게 recon.. 2024. 5. 16.
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. unvoiced  speech의 power spectrum 식이 왜 저렇게 나오나요?  2. pitch frequency가 110Hz인 이유  3. 왜 STFT를 해야할까? FFT 수행 시 zero padding이 frequency resolution에 미치는 영향STFT 결과로 얻게 된 frequency bin이 무엇인지 알아보고 FFT 수행 과정에서 zero padding이 frequency resolution에 어떤 영향을 미치는지 알아봅시다. STFT (Short-time Fourier Transform)음성 신호는 시간에 따라 변화sunny-archive.tistory.com  4. $e^{j\omega_0n}$의 DTFT는 뭘까요?$2\pi \delta(\omega-\omega_0)$.. 2024. 5. 9.