'분류 전체보기' 카테고리의 글 목록 (8 Page)
본문 바로가기

분류 전체보기129

Python으로 STFT 직접 구현해보기 STFT (Short-time Fourier Transform)  정의와 개념 및 필요성을 알아보고 코드로 직접 구현해봅시다. STFT음성 신호는 시간에 따라 변화하고 (time-varying) 신호의 통계적 특성이 지속적으로 변하는 (nonstationary) 성질을 가지고 있기 때문에 전체 신호를 가지고 분석하는데 어려움이 있습니다. 하지만, 음성 신호를 아주 짧은 부분으로로 나누어 보면 각 세그먼트가 일정한 주기로 패턴이 반복되는 걸 관찰할 수 있습니다. 이러한 이유로, 음성 신호 처리에서는 윈도우 (window)를 사용하여 신호를 짧은 세그먼트로 나눈 후 각 세그먼트에 대해 DFT (discrete fourier transform)를 수행하는 STFT (short-time fourier trans.. 2024. 5. 17.
2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. $R=L=N$일 때가 왜 practical하지 않을까? 2. rectanglur windowfrequency selectivity를 생각해봤을 때, practical하지 않음 3. DFT 샘플보다 frame shift가 커질 수 없는 이유inverse DFT 과정에서 time domain aliasing이 발생하게 됨 4. 여러 개의 bandpass로 분석하는 게 어떤 의의를 가질까요?각 frequency band마다 gain을 줌으로써 frequency 대역별로 가공할 수 있음 5. 위 filter에서 왜 modulation을 2번 하는 걸까? modulation이 STFT에 포함된 shift 과정이기 때문DFT, IDFT 과정을 보여준 것 6. gain이 없다면, perfect하게 recon.. 2024. 5. 16.
CLOVA Speech API 사용법 및 화자분할 테스트 NAVER CLOVA Speech네이버의 CLOVA Speech는 NEST (Neural End-to-end Speech Transcriber) 음성 인식 기술을 통해, 정형화되지 않은 발화를 인식하여 텍스트로 바꿔주는 서비스 입니다. 여기서 NEST란, end-to-end 방식으로 학습하여 정형화되지 않은 길고 복잡한 문장에 대해서도 정확한 음성 인식을 가능케하는 기술을 말합니다. CLOVA Speech는 음성 명령 인식 기능, 음성-텍스트 변환 받아쓰기 기능, 화자 인식 기능을 제공합니다. 저는 화자분할 (Speaker Diarization) 서비스를 만들기 위해, 최소 1분 이상의 장문 발화 인식이 가능한 CLOVA Speech API를 사용하기로 결정했습니다. CLOVA Speech API 사용 .. 2024. 5. 13.
[기본] 삼각함수 공식 삼각함수의 정의삼각함수의 부호삼각함수 사이의 관계삼각함수의 성질삼각함수의 덧셈 정리삼각합수의 합성2배각 공식반각공식3배각 공식곱을 합/차로 바꾸는 공식합/차를 곱으로 바꾸는 공식 2024. 5. 12.
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. unvoiced  speech의 power spectrum 식이 왜 저렇게 나오나요?  2. pitch frequency가 110Hz인 이유  3. 왜 STFT를 해야할까? FFT 수행 시 zero padding이 frequency resolution에 미치는 영향STFT 결과로 얻게 된 frequency bin이 무엇인지 알아보고 FFT 수행 과정에서 zero padding이 frequency resolution에 어떤 영향을 미치는지 알아봅시다. STFT (Short-time Fourier Transform)음성 신호는 시간에 따라 변화sunny-archive.tistory.com  4. $e^{j\omega_0n}$의 DTFT는 뭘까요?$2\pi \delta(\omega-\omega_0)$.. 2024. 5. 9.
Coherence 개념으로 Diffuse noise 모델링 Coherence 정의를 알아보고 다채널 음성신호처리에서 쓰이는 중요한 개념인 Interchannel Coherence에 대해 정리해봅시다. 추가로, Diffuse noise가 수학적으로 어떻게 모델링되는지 살펴봅시다. Coherence$$C_{xy}(f)=\frac{|G_{xy}(f)|^2}{G_{xx}(f)G_{yy}(f)}$$ 두 신호 $x(t)$와 $y(t)$ 사이의 magnitude squared coherence [1]는 실수 값 함수로 정의됩니다. 여기서, $G_{xy}(f)$는 $x$와 $y$ 사이의 cross-spectral density이고 $G_{xx}(f)$와 $G_{yy}(f)$는 각각 $x$와 $y$의 auto spectral desity 입니다. 일반적으로, 주파수 영역에서 계.. 2024. 5. 9.