Summary
- MVDR 빔포머 계산에 필요한 NCM을 추정하는 time-frequency mask estimator를 제안함
- 제안된 mask estimator는 desired source의 방향 정보만을 이용해 추정되며 noise와 interference를 줄이는 postfilter로서 개발된 directional gain framework [2]를 사용함
- 별도의 학습이 필요하지 않기 때문에, neural network 기반 estimator에서 겪는 generalization 문제를 겪지 않음
- closed form으로 정리되기 때문에, spatial clustering 기반 estimator에서의 반복 연산 과정을 필요로 하지 않으며 permutation 문제를 겪지 않음
- MPDR / mDF 빔포머와 비교했을 때, 제안된 방법으로 NCM을 추정한 MVDR 빔포머가 더 음질 개선 성능이 좋았음
Seminar
본 학회 논문 [1]에서 사용한 프레임워크에 대한 내용을 보충하기 위해, 저널 논문 "A Framework of Directional-Gain Beamforming and a White-Noise-Gain-Controlled Solution" [2]을 일부 참고하였습니다.
Review
실험에서, 제안된 방법의 성능이 기존 방법론보다 더 좋다는 것을 보여주기 위해 베이스라인 알고리즘으로 MPDR, mDF 빔포머만 보여주었는데요. 위 식에서도 알 수 있듯이, MPDR 빔포머는 NCM이 아닌 입력으로 들어오는 마이크 신호의 통계치를 빔포머 계산에 사용하고 mDF 빔포머는 통계치 추정을 필요로 하지 않습니다. 두 알고리즘 모두 NCM 추정과는 관련이 없기 때문에, 제시한 방법론의 성능에 대한 타당성을 입증하기엔 애매한 구석이 있지 않나.. 싶습니다. (기존 NCM 추정 방법론으로 구한 MVDR)이나 (MVDR + 다른 성능 좋은 postfilter)와 비교했을 때, 상대적인 성능이 어떻게 나오는지 보여줬다면 더 좋았을 것 같다는 생각이 듭니다.
본 세미나를 준비하면서 개념 정리할겸, 작성했던 글들도 소개합니다 :)
Reference
[1] Zhang, Fan, et al. "Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming." ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024. https://doi.org/10.1109/icassp48485.2024.10447393.
[2] Pan, Chao, and Jingdong Chen. "A framework of directional-gain beamforming and a white-noise-gain-controlled solution." IEEE/ACM Transactions on Audio, Speech, and Language Processing 30 (2022): 2875-2887. https://doi.org/10.1109/taslp.2022.3202127.
'연구 노트 > 논문 리뷰' 카테고리의 다른 글
[논문 정리] TF-Mamba: A Time-Frequency Network for Sound Source Localization (0) | 2024.11.05 |
---|---|
[논문 정리] RawBMamba: End-to-End Bidirectional State Space Model for Audio Deepfake Detection (7) | 2024.10.16 |