2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2
본문 바로가기
연구 노트/음성신호처리

2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2

by NEWSUN* 2024. 6. 7.

질문

1. quefrency aliasing이 뭔지 설명해주세요.

1번 그림

 

 

2. filtering을 할 때 desired와 undesired가 각각 뭔가요?

  • 뭘 분석하고자 하는지, 목적에 따라 다를 것임
  • voiced이냐 unvoiced이냐를 판별할 때 desired는 excitation

 

 

3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요? 

  • highpass liftering할 때 desired: excitation 분리할 수 있게 됨 → pitch period
  • lowpass liftering할 때 desired: vocal tract 분리할 수 있게 됨 → formant 

 

 

4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?

  • 힌트: 발화자가 무슨 말을 하고 있는지 알아야 함
  • pitch는 음높낮이 정보이고  formant는 phoneme 단위로 어떻게 발음되는지 볼 수 있기 때문에 lowpass liftering이 더 중요할듯
  • personalized까지 고려한다면, lowpass/highpass liftering 둘다 필요할듯
  • voiced unvoiced인지 모르는 상태 (highpass liftering X)에서 formant만 알고있는 경우 → 인식에는 큰 문제는 없고 정확도 면에서 조금 차이가 있지 않을까.

 

확실하지 않아서 찾아봐야함

  • 어느정도 noise가 있어도 cepstrum은 강인함
  • SNR이 정말 낮다면 많이 왜곡되겠지만, SNR이 고만고만하다면 하모닉 구조, 포먼트는 잘 보일 것임 (노이즈 강도에 따라 다름)
    • 어느정도 noise를 더해도 formant 등 음성 정보를 나타낸 형태를 최대한 유지시키려고 하기 때문에 드라마틱한 변화는 없
    • vocal tract은 고정, excitation만 바뀐 경우, 들었을 때 다르게 들릴까?

 

 

5. inverse DFT 할 때, time-aliasing 개념 정리

  • 1번 그림 참고

 

 

6. vocal tract impulse response를 추정해서 얻어갈 수 있는 것이 뭔가요?

  • 오른쪽 파트에서 위쪽 그림은 non-causal하게 구한 것, 아래 쪽은 causal하게 구한 것
  • causal한 걸 쓰고 싶을 때, minimum-phase imulse response를 쓰면 될듯