Sunny Archive ☀️
본문 바로가기

전체 글105

2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2 질문1. quefrency aliasing이 뭔지 설명해주세요.  2. filtering을 할 때 desired와 undesired가 각각 뭔가요?뭘 분석하고자 하는지, 목적에 따라 다를 것임voiced이냐 unvoiced이냐를 판별할 때 desired는 excitation  3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요? highpass liftering할 때 desired: excitation 분리할 수 있게 됨 → pitch periodlowpass liftering할 때 desired: vocal tract 분리할 수 있게 됨 → formant   4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?힌트: 발화자가 무슨 말.. 2024. 6. 7.
DFS (Discrete Fourier Series) 바로 알기 이산 푸리에 급수 (DFS)의 정의와 특성을 알아보고 예시를 통해 개념을 정리해봅시다. DFS (Discrete Fourier Series)  DFS는 주기성을 갖는 discrete signal을 주파수 성분들의 합으로 표현하는 방법입니다. 이때, 각각의 주파수 성분은 특정 주파수에 해당하는 기저 함수 (basis function)로 표현할 수 있습니다. 위 신호에서 fundamental period는 $N$이고 fundamental frequency는 $\omega_0=2\pi / N$으로 표기합니다.   주파수 성분들은 fundamental frequency $\frac{2\pi}{N}$의 정수 배로 주어지기 때문에, DFS는 periodic signal을 조화적 관계를 갖는 (harmonically.. 2024. 6. 1.
2024.05.30 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 1/2 질문1. Homomorphic system 정의, Homomorphic system을 하는 이유가 뭘까요? 2. 아래 그림 설명해보기                                3. complex logarithm을 정의할 때, uniqueness 문제가 발생하는 이유  4. log의 taylor formular 급수가 저렇게 나오는 이유 5. cepstrum을 어떻게 구할까요?cepstrum은 FFT한 spectrum에서 log 취해준 후 inverse fourier transformcomplex cepstrum의 경우, 실수부는 그냥 cepstrum 구하는 것과 동일함, 허수부는 phase 구한 걸 IFFT하면 됨+) cepstrum은 MFCC 구할때 중요한 개념! 6. pole은 뭘 모.. 2024. 5. 30.
2024.05.23 신입생 세미나 Frequency-Domain Representations 질문 정리 질문0. FFT는 Fast fourier transform의 약자임 1. 아래 그림에서 2초 기준으로 32000sample이 들어갔을 때, x1[n], x2[n], x[3]의 length는? 2. QMF에서 CQF가 나오게된 이유flat gain이 곱해져야 왜곡이 최소화됨magnitude가 각각 다른 값으로 곱해져 linear하지 않아 위상 왜곡이 발생함3. filter bank 나눠서 하는 거랑 FFT해서 frequency bin을 절반으로 나눠서 처리하는 거랑 뭔 차이인지? FFT해서 frequency bin을 절반으로 나눠서 처리하는 것 → 채널의 bandwidth가 일정함filter bank를 고주파, 저주파로 나눔 → 일정하지 않은 bandwidth를 가진 채널로 구성할 수 있고 non-unif.. 2024. 5. 23.
[세미나] Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming SummaryMVDR 빔포머 계산에 필요한 NCM을 추정하는 time-frequency mask estimator를 제안함제안된 mask estimator는 desired source의 방향 정보만을 이용해 추정되며 noise와 interference를 줄이는 postfilter로서 개발된 directional gain framework [2]를 사용함별도의 학습이 필요하지 않기 때문에, neural network 기반 estimator에서 겪는 generalization 문제를 겪지 않음closed form으로 정리되기 때문에, spatial clustering 기반 estimator에서의 반복 연산 과정을 필요로 하지 않으며 permutation 문제를 겪지 않음MPDR / mDF 빔포머와 비교했을 .. 2024. 5. 20.
Python으로 STFT 직접 구현해보기 STFT (Short-time Fourier Transform)  정의와 개념 및 필요성을 알아보고 코드로 직접 구현해봅시다. STFT음성 신호는 시간에 따라 변화하고 (time-varying) 신호의 통계적 특성이 지속적으로 변하는 (nonstationary) 성질을 가지고 있기 때문에 전체 신호를 가지고 분석하는데 어려움이 있습니다. 하지만, 음성 신호를 아주 짧은 부분으로로 나누어 보면 각 세그먼트가 일정한 주기로 패턴이 반복되는 걸 관찰할 수 있습니다. 이러한 이유로, 음성 신호 처리에서는 윈도우 (window)를 사용하여 신호를 짧은 세그먼트로 나눈 후 각 세그먼트에 대해 DFT (discrete fourier transform)를 수행하는 STFT (short-time fourier trans.. 2024. 5. 17.