[세미나] Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming

Summary

MVDR 빔포머 계산에 필요한 NCM을 추정하는 time-frequency mask estimator를 제안함
제안된 mask estimator는 desired source의 방향 정보만을 이용해 추정되며 noise와 interference를 줄이는 postfilter로서 개발된 directional gain framework [2]를 사용함
별도의 학습이 필요하지 않기 때문에, neural network 기반 estimator에서 겪는 generalization 문제를 겪지 않음
closed form으로 정리되기 때문에, spatial clustering 기반 estimator에서의 반복 연산 과정을 필요로 하지 않으며 permutation 문제를 겪지 않음
MPDR / mDF 빔포머와 비교했을 때, 제안된 방법으로 NCM을 추정한 MVDR 빔포머가 더 음질 개선 성능이 좋았음

Seminar

본 학회 논문 [1]에서 사용한 프레임워크에 대한 내용을 보충하기 위해, 저널 논문 "A Framework of Directional-Gain Beamforming and a White-Noise-Gain-Controlled Solution" [2]을 일부 참고하였습니다.

Review

실험에서, 제안된 방법의 성능이 기존 방법론보다 더 좋다는 것을 보여주기 위해 베이스라인 알고리즘으로 MPDR, mDF 빔포머만 보여주었는데요. 위 식에서도 알 수 있듯이, MPDR 빔포머는 NCM이 아닌 입력으로 들어오는 마이크 신호의 통계치를 빔포머 계산에 사용하고 mDF 빔포머는 통계치 추정을 필요로 하지 않습니다. 두 알고리즘 모두 NCM 추정과는 관련이 없기 때문에, 제시한 방법론의 성능에 대한 타당성을 입증하기엔 애매한 구석이 있지 않나.. 싶습니다. (기존 NCM 추정 방법론으로 구한 MVDR)이나 (MVDR + 다른 성능 좋은 postfilter)와 비교했을 때, 상대적인 성능이 어떻게 나오는지 보여줬다면 더 좋았을 것 같다는 생각이 듭니다.

본 세미나를 준비하면서 개념 정리할겸, 작성했던 글들도 소개합니다 :)

MVDR beamformer 완전 정복

대표적인 adaptive beamforming 기법인 MVDR (Minimum Variance Distortionless Responses) beamformer에 대해 살펴보겠습니다. Beamforming 신호에 weight를 곱해서 특정 방향으로부터 온 원하는 소스 신호를 강화하고 그 외

sunny-archive.tistory.com

Coherence 개념으로 Diffuse noise 모델링

Coherence 정의를 알아보고 다채널 음성신호처리에서 쓰이는 중요한 개념인 Interchannel Coherence에 대해 정리해봅시다. 추가로, Diffuse noise가 수학적으로 어떻게 모델링되는지 살펴봅시다. Coherence$$C_{

sunny-archive.tistory.com

Speech Quality 평가지표 정리 (SNR, SI-SDR, PESQ, STOI / MOS, MUSHRA)

음성 품질(Speech Quality)을 측정하는데 쓰이는 4가지 객관적 평가지표 (evaluation metric) - SNR, SI-SDR, PESQ, STOI에 대해 알아봅시다. 추가로, 주관적 평가지표 MOS, MUSHRA 개념을 살펴보고 CSIG, CBAK, 그리고 CO

sunny-archive.tistory.com

Reference

[1] Zhang, Fan, et al. "Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming." ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024. https://doi.org/10.1109/icassp48485.2024.10447393.

‌[2] Pan, Chao, and Jingdong Chen. "A framework of directional-gain beamforming and a white-noise-gain-controlled solution." IEEE/ACM Transactions on Audio, Speech, and Language Processing 30 (2022): 2875-2887. https://doi.org/10.1109/taslp.2022.3202127.

‌

'연구 노트 > 논문 리뷰' 카테고리의 다른 글

[Method 정리] Target exaggeration for deep learning-based speech enhancement (0)	2025.01.15
[논문 정리] TF-Mamba: A Time-Frequency Network for Sound Source Localization (0)	2024.11.05
[논문 정리] RawBMamba: End-to-End Bidirectional State Space Model for Audio Deepfake Detection (7)	2024.10.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Sunny Archive ☀️

[세미나] Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming

Summary

Seminar

Review

Reference

'연구 노트 > 논문 리뷰' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[세미나] Directional Gain Based Noise Covariance Matrix Estimation for MVDR Beamforming

Summary

Seminar

Review

Reference

'연구 노트 > 논문 리뷰' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역