2024.06.07 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 2/2

1. quefrency aliasing이 뭔지 설명해주세요.

2. filtering을 할 때 desired와 undesired가 각각 뭔가요?

3. lowpass liftering을 하면 뭐가 나오고 high liftering을 하면 뭐가 나와요?

4. 음성인식 task일 때, 어떤 liftering을 하면 좋을까요?

힌트: 발화자가 무슨 말을 하고 있는지 알아야 함
pitch는 음높낮이 정보이고 formant는 phoneme 단위로 어떻게 발음되는지 볼 수 있기 때문에 lowpass liftering이 더 중요할듯
personalized까지 고려한다면, lowpass/highpass liftering 둘다 필요할듯
voiced unvoiced인지 모르는 상태 (highpass liftering X)에서 formant만 알고있는 경우 → 인식에는 큰 문제는 없고 정확도 면에서 조금 차이가 있지 않을까.

확실하지 않아서 찾아봐야함

어느정도 noise가 있어도 cepstrum은 강인함
SNR이 정말 낮다면 많이 왜곡되겠지만, SNR이 고만고만하다면 하모닉 구조, 포먼트는 잘 보일 것임 (노이즈 강도에 따라 다름)
- 어느정도 noise를 더해도 formant 등 음성 정보를 나타낸 형태를 최대한 유지시키려고 하기 때문에 드라마틱한 변화는 없
- vocal tract은 고정, excitation만 바뀐 경우, 들었을 때 다르게 들릴까?

5. inverse DFT 할 때, time-aliasing 개념 정리

6. vocal tract impulse response를 추정해서 얻어갈 수 있는 것이 뭔가요?

2024.05.30 신입생 세미나 The Cepstrum and Homomorphic Speech Processing 질문 정리 1/2 (0)	2024.05.30
2024.05.23 신입생 세미나 Frequency-Domain Representations 질문 정리 (0)	2024.05.23
Python으로 STFT 직접 구현해보기 (0)	2024.05.17
2024.05.16 신입생 세미나 Frequency-Domain Representations 질문 정리 (0)	2024.05.16
2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 (0)	2024.05.09

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Sunny Archive ☀️