2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리

질문

1. frame이 뭔가요?

하나의 윈도우로 자른 신호 세그먼트(or chunk)

2. 50번째 frame은 몇 샘플에서 시작해서 몇 샘플에서 끝나는가?

3. 윈도우를 왜 overlap하는가?

윈도우 특성 상 양 사이드에서 discontinuity가 발생하기 때문에 overlap을 해야 정보 손실이 없음
kernel, stride 사이즈에 똑같이 적용됨
frame size = hop size / window length=frame length

4. mainlobe sidelobe 개념 설명해보기

mainlobe는 cutoff frequency까지의 주파수 대역
mainlobe를 제외한건 다 sidelobe

5. mainlobe, sidelobe 구별하는 게 어떤 의미가 있을까?

frequency selectivity: 내가 알고싶은 주파수에 집중하고 싶음
mainlobe: 분석하고자 하는 주파수 대역
sidelobe: 관심 밖의 나머지 주파수 성분들

6. 왜 rectangular window를 안쓰는 걸까?

특정 주파수 대역의 성분을 분석하고 싶은데 sidelobe attenuation이 hamming에 비해 안 좋아 frequency selectivity가 떨어짐
hann이 frequency selectivity가 좋음

7. AGC (Automatic Gain Control)를 하는 이유가 뭔가요?

다른 utterence라도 비슷하게 magnitude를 맞춰줌
분산을 나눠줌으로써 range를 좁혀줌 → 일종의 normalization으로 생각할 수 있을듯
sample index 3800부근은 왜 저렇게 되는지 의문임..

8. long segment일 때, 즉 프레임이 엄청 클 때 굳이 장점을 꼽자면?

time resolution이 떨어지겠지만 frequency resolution이 좋지 않을까
짧은 세그먼트로 나눈 것보다 연산, 속도 측면에서 유리할 수도?

9. 처리하려는 시스템에서 얼마로 frame을 얼마로 짜르면 좋은가?

sampling rate에 따라 다르겠지만 일반적으로 pitch period의 두 세 배 길이, 25ms를 많이 사용함 ( $8000 \times 0.025 = 200 <math xmlns="http://www.w3.org/1998/Math/MathML"><mn>8000</mn><mo>\times</mo><mn>0.025</mn><mo>=</mo><mn>200</mn></math>$ sample)

10. uncertainty가 뭘까?

speech signal이 시간에 따라 천천히 변한다고 가정하는데 피치보다 극단적으로 짧다면 정확한 추정이 힘들지 않을까

11. 음성도 global한 정보(ex. 억양)가 필요할 것 같은데 short time으로 분석해도 괜찮은가?

음성 신호의 경우 시간에 따라 빠르게 변하기 때문에 local한 정보를 많이 봐야함
프레임 단위로 다 볼 수 있게 temporal average pooling (프레임축 압축) 을 적용하던지, self attention을 사용함으로써 처리할 수 있음

+) 논문마다 global, local 정보가 뭔지 정의가 다르다고 함...

12. 실시간 처리를 하게 될 때, 윈도우 사이즈가 크면 어떤 문제가 발생하는가?

latency algorithm delay 발생 (그만큼 긴 입력을 기다려야하니까 delay가 길어짐)

+) latency algorithm delay: 한 프레임이 완성되기까지 기다림

+) latency processing delay: 프레임이 완성된 후 모델 input으로 넣어서 output으로 계산되는데까지 걸리는 계산

13. zero-crossing rate이라는 feature를 왜 음성신호처리할 때 잘 사용하지 않을까?

SNR이 낮은 noisy한 상황
음성신호처리시, 주파수 분석이 중요함..(스펙트럼을 통해 볼 수 있는 하모닉, 에너지 feature가 더 중요함)

14. voiced, unvoiced speech segment가 가우시안 분포에 잘 맞는다고 하는데 그림 상으로는 잘 모르겠음. 어떻게 생각하시나요?

+) 위 그림에서 점선이 뭘 의미하는지?

15. $Z (1) <math xmlns="http://www.w3.org/1998/Math/MathML"><msup><mi>Z</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mn>1</mn><mo stretchy="false">)</mo></mrow></msup></math>$ 의 의미는 뭐고 여기에 sampling rate를 곱하면?

한 샘플당 $z e r o c r o s s i n g r a t e = Z (1) <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>z</mi><mi>e</mi><mi>r</mi><mi>o</mi><mi>c</mi><mi>r</mi><mi>o</mi><mi>s</mi><mi>s</mi><mi>i</mi><mi>n</mi><mi>g</mi><mi>r</mi><mi>a</mi><mi>t</mi><mi>e</mi><mo>=</mo><msup><mi>Z</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mn>1</mn><mo stretchy="false">)</mo></mrow></msup></math>$
'sampling rate을 곱하면 1초에 몇 번'인지로 단위가 바뀜

16. deterministic의 반대

random, stochastic (같은 의미)

17. autocorrelation의 periodicity로부터 뭘 추정할 수 있을까?

pitch period

18. x가 주기 신호, 비주기 신호 (준주기성을 가지는 경우)일 때, typical한 autocorrelation function 그리기

비주기 신호는 2번, 3번만 고려하면 됨

19. 적절한 윈도우 길이

pitch period의 2-3배

20. DC component 제거를 위해 high-pass filter를 사용한다고 하던데 bandpass filter를 쓰는 이유

'연구 노트 > 음성신호처리' 카테고리의 다른 글

2024.05.09 신입생 세미나 Frequency-Domain Representations 질문 정리 (0)	2024.05.09
Coherence 개념으로 Diffuse noise 모델링 (0)	2024.05.09
Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA) (0)	2024.04.24
2024.04.11 신입생 세미나 Hearing, Auditory Models, and Speech Perception 2/2 질문 정리 (0)	2024.04.11
Wiener filter: 신호 필터링, 예측을 하는데 쓰는 linear filter (2)	2024.03.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Sunny Archive ☀️

2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리

질문

'연구 노트 > 음성신호처리' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

2024.04.25-05.02 신입생 세미나 Time-domain Methods for Speech Processing 질문 정리

질문

'연구 노트 > 음성신호처리' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역