질문
1. quefrency aliasing이 뭔지 설명해주세요.
2. filtering을 할 때 desired와 undesired가 각각 뭔가요?
- 뭘 분석하고자 하는지, 목적에 따라 다를 것임
- voiced이냐 unvoiced이냐를 판별할 때 desired는 excitation
3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요?
- highpass liftering할 때 desired: excitation 분리할 수 있게 됨 → pitch period
- lowpass liftering할 때 desired: vocal tract 분리할 수 있게 됨 → formant
4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?
- 힌트: 발화자가 무슨 말을 하고 있는지 알아야 함
- pitch는 음높낮이 정보이고 formant는 phoneme 단위로 어떻게 발음되는지 볼 수 있기 때문에 lowpass liftering이 더 중요할듯
- personalized까지 고려한다면, lowpass/highpass liftering 둘다 필요할듯
- voiced unvoiced인지 모르는 상태 (highpass liftering X)에서 formant만 알고있는 경우 → 인식에는 큰 문제는 없고 정확도 면에서 조금 차이가 있지 않을까.
확실하지 않아서 찾아봐야함
- 어느정도 noise가 있어도 cepstrum은 강인함
- SNR이 정말 낮다면 많이 왜곡되겠지만, SNR이 고만고만하다면 하모닉 구조, 포먼트는 잘 보일 것임 (노이즈 강도에 따라 다름)
- 어느정도 noise를 더해도 formant 등 음성 정보를 나타낸 형태를 최대한 유지시키려고 하기 때문에 드라마틱한 변화는 없
- vocal tract은 고정, excitation만 바뀐 경우, 들었을 때 다르게 들릴까?
5. inverse DFT 할 때, time-aliasing 개념 정리
- 1번 그림 참고
6. vocal tract impulse response를 추정해서 얻어갈 수 있는 것이 뭔가요?
- 오른쪽 파트에서 위쪽 그림은 non-causal하게 구한 것, 아래 쪽은 causal하게 구한 것
- causal한 걸 쓰고 싶을 때, minimum-phase imulse response를 쓰면 될듯
'연구 노트 > 음성신호처리' 카테고리의 다른 글
2024.05.30 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 1/2 (0) | 2024.05.30 |
---|---|
2024.05.23 신입생 세미나 Frequency-Domain Representations 질문 정리 (0) | 2024.05.23 |
Python으로 STFT 직접 구현해보기 (0) | 2024.05.17 |
2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 (0) | 2024.05.16 |
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 (0) | 2024.05.09 |