질문
1. masking effect에 대해 자세하게 설명해보기
2. noise type에서 generator가 뭔가요?
- 발전기 소리?
3. noise는 stationary 할까요? non-stationary 할까요? 각각의 예시도 말해보기
- 팬 돌아가는 소리, 서버 돌아가는 소리 (stationary)
- babble, music (non-stationary)
4. broadband가 뭔가요?
5. masking effect가 거의 일어나지 않는 한계점이 왜 critical bandwidth인가요?
6. block-processing, pre-echo, quantization noise 찾아보기 (숙제)
- block-processing: 프레임 단위로 신호를 처리하는 것
7. pre-masking이랑 pre-echo가 같은 건가요?
8. transient sound가 뭔가요?
- 소리가 갑자기 튀는 것
9. bit를 적게 할당하는 것과 많이 할당하는 것의 차이
10. 비트를 할당하여 처리한다고 했을 때, 어디를 기준으로 시작점과 끝점을 잡나요? 비트 할당 (Bit Assignment) 많이 하는 것과 적게 하는 것의 차이점 (숙제)
- quantization을 하려면 range부터 잡아야 함...
11. pre-emphasis filter가 뭔가요?
- 고주파와 저주파 간 밸런싱을 맞춰주기 위해서 pre-emphasis filter를 적용한 것
12. 음성 신호가 발화됐을 때, average magnitude spectrum을 보면 저주파에서 높은 양상을 띄고 고주파에서 낮은 양상을 띄는데 왜 그런거에요?
13. EIH (Ensemble Interval Histogram) 모델 설명해보기
- filter bank 처리
14. intelligibility가 뭔가요? 그리고 spoken material type과 vocabulary size에 따라 intelligibility가 어떻게 달라지나요?
15. noise가 아예 없는 상황에서 SNR이 어떻게 될까요?
- 아주 커지게 됨 / 20dB, 30dB 정도면 clean 하다고 판단
16. 아래 식에서 $P_{signal}$은 어떻게 구하나요?
17. PESQ ITU-T P.8.62 찾아보기
- PESQ는 저주파에 집중하는 게 성능이 좋게 나옴
- 16kHz면 wideband, 8kHz면 narrowband / 16kHz가 (PESQ 기준점)
- full-band는 PESQ가 안됨
- PESQ narrowband 범위 -0.5~4.5
- PESQ wideband 범위 0~5
18. PESQ measure와 MOS measure가 상반되게 나왔을 때 어떻게 해야하나요?
- measure를 다양하게 쓰자!
19. MUSHRA와 MOS의 차이점
- MOS는 안거르고 다씀, 모수가 중요하고 사람 많을수록 정확해지는 measure
- MUSHRA 전문가 평가, 소수로 해도 신뢰있는 measure, 거르는 과정도 있음
'연구 노트 > 음성신호처리' 카테고리의 다른 글
2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리 (0) | 2024.04.25 |
---|---|
Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA) (0) | 2024.04.24 |
Wiener filter: 신호 필터링, 예측을 하는데 쓰는 linear filter (2) | 2024.03.13 |
MVDR beamformer 완전 정복 (1) | 2024.03.12 |
Multi-Channel 신호처리 & 빔포밍 (Beamforming)에 대한 고찰 (1) | 2024.03.07 |