'연구 노트' 카테고리의 글 목록 (6 Page)
본문 바로가기

연구 노트55

2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리 질문1. frame이 뭔가요?하나의 윈도우로 자른 신호 세그먼트(or chunk) 2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가? 3. 윈도우를 왜 overlap하는가?윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음kernel, stride 사이즈에 똑같이 적용됨frame size = hop size / window length=frame length 4. mainlobe sidelobe 개념 설명해보기mainlobe는 cutoff frequency까지의 주파수 대역mainlobe를 제외한건 다 sidelobe 5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?frequency selectivit.. 2024. 4. 25.
Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA) 음성 품질(Speech Quality)을 측정하는데 쓰이는 4가지 객관적 평가지표 (evaluation metric) - SNR, SI-SDR, PESQ, STOI에 대해 알아봅시다. 추가로, 주관적 평가지표 MOS, MUSHRA 개념을 살펴보고 CSIG, CBAK, 그리고 COVL로 구성된 합성측정 방법에 대해서도 정리해봅시다.  * 음성 품질 (Speech Quality)음성 신호를 처리할 때, 디지털 형식으로 표현된 소리를 reconstruction하여 원신호와 똑같이 들리게 하는 것을 목표로 합니다. 이때 Speech quality는 재구성된 신호가 원래의 음성신호와 얼마나 유사한가를 나타냅니다. Speech quality가 높을수록, 부자연스러운 왜곡이 없다는 점에서 naturalness 자연스.. 2024. 4. 24.
다운샘플링 시 Aliasing 현상 Spectrogram에서 관찰하기 샘플링 이론에 대한 개념을 알아보고 torch 라이브러리를 사용해서 다운샘플링 했을 때 aliasing이 어떻게 관찰되는지 코드를 통해 살펴봅시다.  샘플링 하는 이유현실세계에서 대부분의 신호는 연속적입니다. 하지만, 컴퓨터와 같은 디지털 시스템에서는 연속적인 신호를 처리하기 어렵기 때문에 신호를 디지털 형태로 변환해주는 작업이 필요합니다. 이를 위해, 신호를 일정한 간격으로 샘플링하면 이산적인 표현을 얻을 수 있습니다.  샘플링 이론과 Aliasing나이퀴스트 샘플링 정리에 따르면, 연속 시간 신호를 복원하기 위해서는 샘플링 주파수가 신호의 최대 주파수의 두 배보다 커야 합니다. 이 조건을 만족하지 않는 경우, 샘플링 과정에서 정보의 왜곡 / 손실을 초래하는 aliasing이 발생합니다. aliasin.. 2024. 4. 21.
고윳값 (eigenvalue), 고유 함수 (eigenfunction) 개념으로 LTI 시스템 해석하기 선형대수에서 중요한 개념인 고윳값 (eigenvalue), 고유 벡터 (eigenvector) 그리고 고유 함수 (eigenfunction)의 정의를 살펴보고 LTI 시스템에서 각각 어떻게 나타나는지 알아봅시다. 고윳값과 고유 벡터 $$\mathbf{Av=\lambda v}$$ $\mathbf{A}$라는 행렬에 벡터 $ \mathbf{v}$를 곱했을 때, '벡터의 방향은 그대로 나오고 크기만 $\lambda$ 만큼 변한다'고 가정해봅시다. 이때, 위 식을 만족하는 $\mathbf{\lambda}$를 고윳값 (eigenvalue)이라 하고 $\mathbf{v}$를 고유 벡터 (eigenvector)라고 합니다. 고유 벡터를 무한 차원 (곧 signal)으로 확장하면, 고유 함수 (eigenfunction).. 2024. 4. 18.
LTI 시스템의 주파수 응답과 phase distortion, group delay LTI 시스템의 frequency response에 대해 알아보고 phase distortion, group delay 개념을 살펴봅시다. LTI 시스템의 frequency response 시스템의 주파수 응답 (frequency response)이 선형 시불변 시스템 (LTI system)을 특징짓듯이, 임펄스 응답 (impulse response)을 알면 LTI system 전체를 이해할 수 있게 됩니다. LTI system: linearity와 time-invariant 속성을 가진 시스템 impulse response: 시간 영역에서 LTI 시스템의 입출력 성질을 보여줌, 입력으로 임펄스가 들어왔을 때 시스템의 출력 frequency response: 주파수 영역에서 LTI 시스템의 입출력 성질을.. 2024. 4. 13.
2024.04.11 신입생 세미나 Hearing, Auditory Models, and Speech Perception 2/2 질문 정리 질문1. masking effect에 대해 자세하게 설명해보기 2. noise type에서 generator가 뭔가요?발전기 소리? 3. noise는 stationary 할까요? non-stationary 할까요? 각각의 예시도 말해보기팬 돌아가는 소리, 서버 돌아가는 소리 (stationary)babble, music (non-stationary) 4. broadband가 뭔가요? 5. masking effect가 거의 일어나지 않는 한계점이 왜 critical bandwidth인가요? 6. block-processing, pre-echo, quantization noise 찾아보기 (숙제)block-processing: 프레임 단위로 신호를 처리하는 것 7. pre-masking이랑 pre-echo가.. 2024. 4. 11.