신입생 세미나5 2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2 질문1. quefrency aliasing이 뭔지 설명해주세요. 2. filtering을 할 때 desired와 undesired가 각각 뭔가요?뭘 분석하고자 하는지, 목적에 따라 다를 것임voiced이냐 unvoiced이냐를 판별할 때 desired는 excitation 3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요? highpass liftering할 때 desired: excitation 분리할 수 있게 됨 → pitch periodlowpass liftering할 때 desired: vocal tract 분리할 수 있게 됨 → formant 4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?힌트: 발화자가 무슨 말.. 2024. 6. 7. 2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. $R=L=N$일 때가 왜 practical하지 않을까? 2. rectanglur windowfrequency selectivity를 생각해봤을 때, practical하지 않음 3. DFT 샘플보다 frame shift가 커질 수 없는 이유inverse DFT 과정에서 time domain aliasing이 발생하게 됨 4. 여러 개의 bandpass로 분석하는 게 어떤 의의를 가질까요?각 frequency band마다 gain을 줌으로써 frequency 대역별로 가공할 수 있음 5. 위 filter에서 왜 modulation을 2번 하는 걸까? modulation이 STFT에 포함된 shift 과정이기 때문DFT, IDFT 과정을 보여준 것 6. gain이 없다면, perfect하게 recon.. 2024. 5. 16. 2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. unvoiced speech의 power spectrum 식이 왜 저렇게 나오나요? 2. pitch frequency가 110Hz인 이유 3. 왜 STFT를 해야할까? FFT 수행 시 zero padding이 frequency resolution에 미치는 영향STFT 결과로 얻게 된 frequency bin이 무엇인지 알아보고 FFT 수행 과정에서 zero padding이 frequency resolution에 어떤 영향을 미치는지 알아봅시다. STFT (Short-time Fourier Transform)음성 신호는 시간에 따라 변화sunny-archive.tistory.com 4. $e^{j\omega_0n}$의 DTFT는 뭘까요?$2\pi \delta(\omega-\omega_0)$.. 2024. 5. 9. 2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리 질문1. frame이 뭔가요?하나의 윈도우로 자른 신호 세그먼트(or chunk) 2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가? 3. 윈도우를 왜 overlap하는가?윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음kernel, stride 사이즈에 똑같이 적용됨frame size = hop size / window length=frame length 4. mainlobe sidelobe 개념 설명해보기mainlobe는 cutoff frequency까지의 주파수 대역mainlobe를 제외한건 다 sidelobe 5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?frequency selectivit.. 2024. 4. 25. 2024.04.11 신입생 세미나 Hearing, Auditory Models, and Speech Perception 2/2 질문 정리 질문1. masking effect에 대해 자세하게 설명해보기 2. noise type에서 generator가 뭔가요?발전기 소리? 3. noise는 stationary 할까요? non-stationary 할까요? 각각의 예시도 말해보기팬 돌아가는 소리, 서버 돌아가는 소리 (stationary)babble, music (non-stationary) 4. broadband가 뭔가요? 5. masking effect가 거의 일어나지 않는 한계점이 왜 critical bandwidth인가요? 6. block-processing, pre-echo, quantization noise 찾아보기 (숙제)block-processing: 프레임 단위로 신호를 처리하는 것 7. pre-masking이랑 pre-echo가.. 2024. 4. 11.