Sunny Archive ☀️
본문 바로가기

전체 글105

2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. $R=L=N$일 때가 왜 practical하지 않을까? 2. rectanglur windowfrequency selectivity를 생각해봤을 때, practical하지 않음 3. DFT 샘플보다 frame shift가 커질 수 없는 이유inverse DFT 과정에서 time domain aliasing이 발생하게 됨 4. 여러 개의 bandpass로 분석하는 게 어떤 의의를 가질까요?각 frequency band마다 gain을 줌으로써 frequency 대역별로 가공할 수 있음 5. 위 filter에서 왜 modulation을 2번 하는 걸까? modulation이 STFT에 포함된 shift 과정이기 때문DFT, IDFT 과정을 보여준 것 6. gain이 없다면, perfect하게 recon.. 2024. 5. 16.
CLOVA Speech API 사용법 및 화자분할 테스트 NAVER CLOVA Speech네이버의 CLOVA Speech는 NEST (Neural End-to-end Speech Transcriber) 음성 인식 기술을 통해, 정형화되지 않은 발화를 인식하여 텍스트로 바꿔주는 서비스 입니다. 여기서 NEST란, end-to-end 방식으로 학습하여 정형화되지 않은 길고 복잡한 문장에 대해서도 정확한 음성 인식을 가능케하는 기술을 말합니다. CLOVA Speech는 음성 명령 인식 기능, 음성-텍스트 변환 받아쓰기 기능, 화자 인식 기능을 제공합니다. 저는 화자분할 (Speaker Diarization) 서비스를 만들기 위해, 최소 1분 이상의 장문 발화 인식이 가능한 CLOVA Speech API를 사용하기로 결정했습니다. CLOVA Speech API 사용 .. 2024. 5. 13.
[기본] 삼각함수 공식 삼각함수의 정의삼각함수의 부호삼각함수 사이의 관계삼각함수의 성질삼각함수의 덧셈 정리삼각합수의 합성2배각 공식반각공식3배각 공식곱을 합/차로 바꾸는 공식합/차를 곱으로 바꾸는 공식 2024. 5. 12.
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 질문1. unvoiced  speech의 power spectrum 식이 왜 저렇게 나오나요?  2. pitch frequency가 110Hz인 이유  3. 왜 STFT를 해야할까? FFT 수행 시 zero padding이 frequency resolution에 미치는 영향STFT 결과로 얻게 된 frequency bin이 무엇인지 알아보고 FFT 수행 과정에서 zero padding이 frequency resolution에 어떤 영향을 미치는지 알아봅시다. STFT (Short-time Fourier Transform)음성 신호는 시간에 따라 변화sunny-archive.tistory.com  4. $e^{j\omega_0n}$의 DTFT는 뭘까요?$2\pi \delta(\omega-\omega_0)$.. 2024. 5. 9.
Coherence 개념으로 Diffuse noise 모델링 Coherence 정의를 알아보고 다채널 음성신호처리에서 쓰이는 중요한 개념인 Interchannel Coherence에 대해 정리해봅시다. 추가로, Diffuse noise가 수학적으로 어떻게 모델링되는지 살펴봅시다. Coherence$$C_{xy}(f)=\frac{|G_{xy}(f)|^2}{G_{xx}(f)G_{yy}(f)}$$ 두 신호 $x(t)$와 $y(t)$ 사이의 magnitude squared coherence [1]는 실수 값 함수로 정의됩니다. 여기서, $G_{xy}(f)$는 $x$와 $y$ 사이의 cross-spectral density이고 $G_{xx}(f)$와 $G_{yy}(f)$는 각각 $x$와 $y$의 auto spectral desity 입니다. 일반적으로, 주파수 영역에서 계.. 2024. 5. 9.
2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리 질문1. frame이 뭔가요?하나의 윈도우로 자른 신호 세그먼트(or chunk) 2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가? 3. 윈도우를 왜 overlap하는가?윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음kernel, stride 사이즈에 똑같이 적용됨frame size = hop size / window length=frame length 4. mainlobe sidelobe 개념 설명해보기mainlobe는 cutoff frequency까지의 주파수 대역mainlobe를 제외한건 다 sidelobe 5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?frequency selectivit.. 2024. 4. 25.