질문
1. frame이 뭔가요?
- 하나의 윈도우로 자른 신호 세그먼트(or chunk)
2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가?
3. 윈도우를 왜 overlap하는가?
- 윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음
- kernel, stride 사이즈에 똑같이 적용됨
- frame size = hop size / window length=frame length
4. mainlobe sidelobe 개념 설명해보기
- mainlobe는 cutoff frequency까지의 주파수 대역
- mainlobe를 제외한건 다 sidelobe
5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?
- frequency selectivity: 내가 알고싶은 주파수에 집중하고 싶음
- mainlobe: 분석하고자 하는 주파수 대역
- sidelobe: 관심 밖의 나머지 주파수 성분들
6. 왜 rectangular window를 안쓰는 걸까?
- 특정 주파수 대역의 성분을 분석하고 싶은데 sidelobe attenuation이 hamming에 비해 안 좋아 frequency selectivity가 떨어짐
- hann이 frequency selectivity가 좋음
7. AGC (Automatic Gain Control)를 하는 이유가 뭔가요?
- 다른 utterence라도 비슷하게 magnitude를 맞춰줌
- 분산을 나눠줌으로써 range를 좁혀줌 → 일종의 normalization으로 생각할 수 있을듯
- sample index 3800부근은 왜 저렇게 되는지 의문임..
8. long segment일 때, 즉 프레임이 엄청 클 때 굳이 장점을 꼽자면?
- time resolution이 떨어지겠지만 frequency resolution이 좋지 않을까
- 짧은 세그먼트로 나눈 것보다 연산, 속도 측면에서 유리할 수도?
9. 처리하려는 시스템에서 얼마로 frame을 얼마로 짜르면 좋은가?
- sampling rate에 따라 다르겠지만 일반적으로 pitch period의 두 세 배 길이, 25ms를 많이 사용함 ($8000\times0.025=200$sample)
10. uncertainty가 뭘까?
- speech signal이 시간에 따라 천천히 변한다고 가정하는데 피치보다 극단적으로 짧다면 정확한 추정이 힘들지 않을까
11. 음성도 global한 정보(ex. 억양)가 필요할 것 같은데 short time으로 분석해도 괜찮은가?
- 음성 신호의 경우 시간에 따라 빠르게 변하기 때문에 local한 정보를 많이 봐야함
- 프레임 단위로 다 볼 수 있게 temporal average pooling (프레임축 압축) 을 적용하던지, self attention을 사용함으로써 처리할 수 있음
+) 논문마다 global, local 정보가 뭔지 정의가 다르다고 함...
12. 실시간 처리를 하게 될 때, 윈도우 사이즈가 크면 어떤 문제가 발생하는가?
- latency algorithm delay 발생 (그만큼 긴 입력을 기다려야하니까 delay가 길어짐)
+) latency algorithm delay: 한 프레임이 완성되기까지 기다림
+) latency processing delay: 프레임이 완성된 후 모델 input으로 넣어서 output으로 계산되는데까지 걸리는 계산
13. zero-crossing rate이라는 feature를 왜 음성신호처리할 때 잘 사용하지 않을까?
- SNR이 낮은 noisy한 상황
- 음성신호처리시, 주파수 분석이 중요함..(스펙트럼을 통해 볼 수 있는 하모닉, 에너지 feature가 더 중요함)
14. voiced, unvoiced speech segment가 가우시안 분포에 잘 맞는다고 하는데 그림 상으로는 잘 모르겠음. 어떻게 생각하시나요?
+) 위 그림에서 점선이 뭘 의미하는지?
15. $Z^{(1)}$의 의미는 뭐고 여기에 sampling rate를 곱하면?
- 한 샘플당 $zero crossing rate = Z^{(1)}$
- 'sampling rate을 곱하면 1초에 몇 번'인지로 단위가 바뀜
16. deterministic의 반대
- random, stochastic (같은 의미)
17. autocorrelation의 periodicity로부터 뭘 추정할 수 있을까?
- pitch period
18. x가 주기 신호, 비주기 신호 (준주기성을 가지는 경우)일 때, typical한 autocorrelation function 그리기
- 비주기 신호는 2번, 3번만 고려하면 됨
19. 적절한 윈도우 길이
- pitch period의 2-3배
20. DC component 제거를 위해 high-pass filter를 사용한다고 하던데 bandpass filter를 쓰는 이유
'연구 노트 > 음성신호처리' 카테고리의 다른 글
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 (0) | 2024.05.09 |
---|---|
Coherence 개념으로 Diffuse noise 모델링 (0) | 2024.05.09 |
Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA) (0) | 2024.04.24 |
2024.04.11 신입생 세미나 Hearing, Auditory Models, and Speech Perception 2/2 질문 정리 (0) | 2024.04.11 |
Wiener filter: 신호 필터링, 예측을 하는데 쓰는 linear filter (2) | 2024.03.13 |