Shuai Wang | Work hard

Latest

Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech
AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data
DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion
Leveraging In-the-Wild Data for Effective Self-Supervised Pretraining in Speaker Recognition
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding
Speaker Representation Learning: Theories, Applications and Practice
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion
Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor
Wespeaker: A Research and Production oriented Speaker Embedding Learning Toolkit
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion
Context-aware Multimodal Fusion for Emotion Recognition
DF-ResNet: Boosting Speaker Verification Performance with Depth-First Design
On the Importance of Different Frequency Bins for Speaker Verification
Self-Knowledge Distillation via Feature Enhancement for Speaker Verification
Non-Parallel Any-to-Many Voice Conversion by Replacing Speaker Statistics
Voice activity detection in the wild: A data-driven approach using teacher-student training
Speaker Embedding Augmentation with Noise Distribution Matching.
Revisiting the Statistics Pooling Layer in Deep Speaker Embedding Learning
SELF-SUPERVISED LEARNING BASED DOMAIN ADAPTATION FOR ROBUST SPEAKER VERIFICATION
SYNAUG:SYNTHESIS-BASED DATA AUGMENTATION FOR TEXT-DEPENDENT SPEAKER VERIFICATION
Unit Selection Synthesis based Data Augmentation for Fixed Phrase Speaker Verification
Audio-Visual Deep Neural Network for Robust Person Verification
Data Augmentation using Deep Generative Models for Embedding based Speaker Recognition
Dual-adversarial domain adaptation for generalized replay attack detection
Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge
But System for the Second Dihard Speech Diarization Challenge
Optimizing Bayesian HMM based x-vector clustering for the second DIHARD speech diarization challenge
Text Adaptation for Speaker Verification with Speaker-Text Factorized Embeddings
Channel Invariant Speaker Embedding Learning with Joint Multi-Task and Adversarial Training
Investigation of Specaugment for Deep Speaker Embedding Learning
BUT system description to voxceleb speaker recognition challenge 2019
Discriminative Neural Embedding Learning for Short-Duration Text-Independent Speaker Verification
Margin matters: Towards more discriminative deep neural network embeddings for speaker recognition
Knowledge Distillation for Small Foot-print Deep Speaker Embedding
End-to-End Speaker-Dependent Voice Activity Detection
The SJTU Robust Anti-Spoofing System for the ASVspoof 2019 Challenge
Bayesian HMM Based x-Vector Clustering for Speaker Diarization
Cross-Domain Replay Spoofing Attack Detection Using Domain Adversarial Training
Data Augmentation Using Variational Autoencoder for Embedding Based Speaker Verification
On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction
Angular Softmax for Short-Duration Text-independent Speaker Verification.
Covariance based deep feature for text-dependent speaker verification
Deep discriminant analysis for i-vector based robust speaker recognition
Generative Adversarial Networks based X-vector Augmentation for Robust Probabilistic Linear Discriminant Analysis in Speaker Verification
Focal KL-divergence based dilated convolutional neural networks for co-channel speaker identification
Joint i-vector with end-to-end system for short-duration text-independent speaker verification
Integrating Online i-vector into GMM-UBM for Text-dependent Speaker Verification
What Does the Speaker Embedding Encode?