2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리
본문 바로가기
연구 노트/음성신호처리

2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리

by NEWSUN* 2024. 4. 25.

질문

1. frame이 뭔가요?

  • 하나의 윈도우로 자른 신호 세그먼트(or chunk)

 

2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가?

 

3. 윈도우를 왜 overlap하는가?

  • 윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음
  • kernel, stride 사이즈에 똑같이 적용됨
  • frame size = hop size / window length=frame length

 

4. mainlobe sidelobe 개념 설명해보기

  • mainlobe는 cutoff frequency까지의 주파수 대역
  • mainlobe를 제외한건 다 sidelobe

 

5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?

  • frequency selectivity: 내가 알고싶은 주파수에 집중하고 싶음
  • mainlobe: 분석하고자 하는 주파수 대역
  • sidelobe: 관심 밖의 나머지 주파수 성분들

 

6. 왜 rectangular window를 안쓰는 걸까?

  • 특정 주파수 대역의 성분을 분석하고 싶은데 sidelobe attenuation이 hamming에 비해 안 좋아 frequency selectivity가 떨어짐
  • hann이 frequency selectivity가 좋음

 

7. AGC (Automatic Gain Control)를 하는 이유가 뭔가요?

  • 다른 utterence라도 비슷하게 magnitude를 맞춰줌
  • 분산을 나눠줌으로써 range를 좁혀줌 → 일종의 normalization으로 생각할 수 있을듯
  • sample index 3800부근은 왜 저렇게 되는지 의문임..

 

8. long segment일 때, 즉 프레임이 엄청 클 때 굳이 장점을 꼽자면?

  • time resolution이 떨어지겠지만 frequency resolution이 좋지 않을까
  • 짧은 세그먼트로 나눈 것보다 연산, 속도 측면에서 유리할 수도?

 

9. 처리하려는 시스템에서 얼마로 frame을 얼마로 짜르면 좋은가?

  • sampling rate에 따라 다르겠지만 일반적으로 pitch period의 두 세 배 길이, 25ms를 많이 사용함 ($8000\times0.025=200$sample)

 

10. uncertainty가 뭘까?

  • speech signal이 시간에 따라 천천히 변한다고 가정하는데 피치보다 극단적으로 짧다면 정확한 추정이 힘들지 않을까

 

11. 음성도 global한 정보(ex. 억양)가 필요할 것 같은데 short time으로 분석해도 괜찮은가?

  • 음성 신호의 경우 시간에 따라 빠르게 변하기 때문에 local한 정보를 많이 봐야함
  • 프레임 단위로 다 볼 수 있게 temporal average pooling (프레임축 압축) 을 적용하던지, self attention을 사용함으로써 처리할 수 있음

+) 논문마다 global, local 정보가 뭔지 정의가 다르다고 함... 

 

12. 실시간 처리를 하게 될 때, 윈도우 사이즈가 크면 어떤 문제가 발생하는가?

  • latency algorithm delay 발생 (그만큼 긴 입력을 기다려야하니까 delay가 길어짐)

+) latency algorithm delay: 한 프레임이 완성되기까지 기다림

+) latency processing delay: 프레임이 완성된 후 모델 input으로 넣어서 output으로 계산되는데까지 걸리는 계산

 

13. zero-crossing rate이라는 feature를 왜 음성신호처리할 때 잘 사용하지 않을까?

  • SNR이 낮은 noisy한 상황
  • 음성신호처리시, 주파수 분석이 중요함..(스펙트럼을 통해 볼 수 있는 하모닉, 에너지 feature가 더 중요함)

 

14. voiced, unvoiced speech segment가 가우시안 분포에 잘 맞는다고 하는데 그림 상으로는 잘 모르겠음. 어떻게 생각하시나요?

+) 위 그림에서 점선이 뭘 의미하는지? 

 

15. $Z^{(1)}$의 의미는 뭐고 여기에 sampling rate를 곱하면?

  • 한 샘플당 $zero crossing rate = Z^{(1)}$
  • 'sampling rate을 곱하면 1초에 몇 번'인지로 단위가 바뀜

 

16. deterministic의 반대

  • random, stochastic (같은 의미)

 

17. autocorrelation의 periodicity로부터 뭘 추정할 수 있을까?

  • pitch period

 

18. x가 주기 신호, 비주기 신호 (준주기성을 가지는 경우)일 때, typical한 autocorrelation function 그리기

  • 비주기 신호는 2번, 3번만 고려하면 됨

 

19. 적절한 윈도우 길이

  • pitch period의 2-3배

 

20. DC component 제거를 위해 high-pass filter를 사용한다고 하던데 bandpass filter를 쓰는 이유