Publications | Work hard

Shuai Wang, Qibing Bai, Qi Liu, Jianwei Yu, Zhengyang Chen, Bing Han, Yanmin Qian, Haizhou Li (2024). Leveraging In-the-Wild Data for Effective Self-Supervised Pretraining in Speaker Recognition. ICASSP 2024 (Accepted).

PDF Code

Ziqian Ning, Yuepeng Jiang, Pengcheng Zhu, Shuai Wang, Jixun Yao, Lei Xie, Mengxiao Bi (2024). DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion. ICASSP 2024 (Accepted).

Jianwei Yu, Hangting Chen, Yanyao Bian, Xiang Li, Yi Luo, Jinchuan Tian, Mengyang Liu, Jiayi Jiang, Shuai Wang (2024). AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data. ICASSP 2024 (Accepted).

Junjie Li, Ruijie Tao, Zexu Pan, Meng Ge, Shuai Wang, Haizhou Li (2024). Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech. ICASSP 2024 (Accepted).

Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu (2024). UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding. AAAI 2024 (Accepted).

PDF Code Project

Zhengyang Chen, Bing Han, Shuai Wang, Yanmin Qian (2023). Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor. Interspeech 2023.

Xintao Zhao, Shuai Wang, Yang Chao, Zhiyong Wu, Helen Meng (2023). Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion. Interspeech 2023.

Hongji Wang, Chengdong Liang, Shuai Wang, Zhengyang Chen, Binbin Zhang, Xu Xiang, Yanlei Deng, Yanmin Qian (2023). Wespeaker: A Research and Production oriented Speaker Embedding Learning Toolkit. ICASSP 2023.

PDF Code

Xintao Zhao, Shuai Wang, Yang Chao, Zhiyong Wu, Helen Meng (2023). Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion. ICME 2023.

Jinchao Li, Shuai Wang, Yang Chao, Xunying Liu, Helen Meng (2022). Context-aware Multimodal Fusion for Emotion Recognition. Interspeech 2022.

Bei Liu, Zhengyang Chen, Shuai Wang, Haoyu Wang, Bing Han, Yanmin Qian (2022). DF-ResNet: Boosting Speaker Verification Performance with Depth-First Design. Interspeech 2022.

Aiwen Deng, Shuai Wang, Wenxiong Kang, Feiqi Deng (2022). On the Importance of Different Frequency Bins for Speaker Verification. ICASSP 2022.

Bei Liu, Haoyu Wang, Zhengyang Chen, Shuai Wang, Yanmin Qian (2022). Self-Knowledge Distillation via Feature Enhancement for Speaker Verification. ICASSP 2022.

Yufei Liu, Chengzhu Yu, Shuai Wang, Zhenchuan Yang, Chao Yang, Weibin Zhang (2021). Non-Parallel Any-to-Many Voice Conversion by Replacing Speaker Statistics. Interspeech 2021.

PDF

Heinrich Dinkel, Shuai Wang, Xuenan Xu, Mengyue Wu, Kai Yu (2021). Voice activity detection in the wild: A data-driven approach using teacher-student training. TASLP 2021.

PDF Code DOI

Xun Gong, Zhengyang Chen, Yexin Yang, Shuai Wang, Lan Wang, Yanmin Qian (2021). Speaker Embedding Augmentation with Noise Distribution Matching.. ISCSLP 2021.

Shuai Wang, Yexin Yang, Yanmin Qian, Kai Yu (2021). Revisiting the Statistics Pooling Layer in Deep Speaker Embedding Learning. ISCSLP 2021.

Zhengyang Chen, Shuai Wang, Yanmin Qian (2021). SELF-SUPERVISED LEARNING BASED DOMAIN ADAPTATION FOR ROBUST SPEAKER VERIFICATION. ICASSP 2021.

Chenpeng Du, Bing Han, Shuai Wang, Yanmin Qian, Kai Yu (2021). SYNAUG:SYNTHESIS-BASED DATA AUGMENTATION FOR TEXT-DEPENDENT SPEAKER VERIFICATION. ICASSP 2021.

Houjun Huang, Xu Xiang, Fei Zhao, Shuai Wang, Yanmin Qian (2021). Unit Selection Synthesis based Data Augmentation for Fixed Phrase Speaker Verification. ICASSP 2021.

Yanmin Qian, Zhengyang Chen, Shuai Wang (2021). Audio-Visual Deep Neural Network for Robust Person Verification. TASLP 2021.

Shuai Wang, Yexin Yang, Zhanghao Wu, Yanmin Qian, Kai Yu (2020). Data Augmentation using Deep Generative Models for Embedding based Speaker Recognition. TASLP 2020.

PDF DOI

Hongji Wang, Heinrich Dinkel, Shuai Wang, Yanmin Qian and Kai Yu (2020). Dual-adversarial domain adaptation for generalized replay attack detection. Interspeech 2020.

Zhengyang Chen, Shuai Wang and Yanmin Qian (2020). Multi-modality Matters: A Performance Leap on VoxCeleb. Interspeech 2020.

Zhengyang Chen, Shuai Wang and Yanmin Qian (2020). Adversarial Domain Adaptation for Speaker Verification using Partially Shared Network. Interspeech 2020.

Jahangir Alam, Gilles Boulianne, Lukáš Burget, Mohamed Dahmane, Mireia Diez, Ondrej Glembek, Marc Lalonde, Alicia Lozano-Diez, Pavel Matejka, Petr Mizera, Ladislav Mošner, Cédric Noiseux, Joao Monteiro, Ondrej Novotný, Oldrich Plchot, Johan Rohdin, Anna Silnova, Josef Slavıcek, Themos Stafylakis, Pierre-Luc St-Charles, Shuai Wang, Hossein Zeinali (alphabetical order) (2020). Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge. Odyssey 2020.

PDF

Federico Landini, Shuai Wang, Mireia Diez, Lukáš Burget, Pavel Matějka, Kateřina Žmolíková, Ladislav Mošner, Anna Silnova, Oldřich Plchot, Ondřej Novotný, Hossein Zeinali, Johan Rohdin (2020). But System for the Second Dihard Speech Diarization Challenge. ICASSP 2020.

PDF Code DOI

Mireia Diez, Lukáš Burget, Federico Landini, Shuai Wang, Honza Černocký (2020). Optimizing Bayesian HMM based x-vector clustering for the second DIHARD speech diarization challenge. ICASSP 2020.

PDF Code DOI

Yexin Yang*, Shuai Wang*, Xun Gong, Yanmin Qian, Kai Yu (2020). Text Adaptation for Speaker Verification with Speaker-Text Factorized Embeddings. ICASSP 2020.

PDF DOI

Zhengyang Chen, Shuai Wang, Yanmin Qian, Kai Yu (2020). Channel Invariant Speaker Embedding Learning with Joint Multi-Task and Adversarial Training. ICASSP 2020.

PDF DOI

Shuai Wang, Johan Rohdin, Oldřich Plchot, Lukáš Burget, Kai Yu, Jan Černocký (2020). Investigation of Specaugment for Deep Speaker Embedding Learning. ICASSP 2020.

PDF DOI

Hossein Zeinali, Shuai Wang, Anna Silnova, Pavel Matějka, Oldřich Plchot (2019). BUT system description to voxceleb speaker recognition challenge 2019.

Preprint Code

Shuai Wang, Zili Huang, Yanmin Qian, Kai Yu (2019). Discriminative Neural Embedding Learning for Short-Duration Text-Independent Speaker Verification. TASLP 2019.

DOI

Xu Xiang, Shuai Wang, Houjun Huang, Yanmin Qian, Kai Yu (2019). Margin matters: Towards more discriminative deep neural network embeddings for speaker recognition. APSIPA 2019.

PDF DOI

Shuai Wang, Yexin Yang, Tianzhe Wang, Yanmin Qian and Kai Yu (2019). Knowledge Distillation for Small Foot-print Deep Speaker Embedding. ICASSP 2019.

PDF DOI

Yefei Chen, Shuai Wang, Yanmin Qian and Kai Yu (2019). End-to-End Speaker-Dependent Voice Activity Detection. In The 15th National Conference on Man-Machine Speech Communication (NCMMSC2019), Xining, Qinghai, China, 2019..

PDF

Yexin Yang, Hongji Wang, Heinrich Dinkel, Zhengyang Chen, Shuai Wang, Yanmin Qian, Kai Yu (2019). The SJTU Robust Anti-Spoofing System for the ASVspoof 2019 Challenge. Interspeech 2019.

PDF DOI

Mireia Diez, Lukáš Burget, Shuai Wang, Johan Rohdin, Jan Černocký (2019). Bayesian HMM Based x-Vector Clustering for Speaker Diarization. Interspeech 2019.

PDF DOI

Hongji Wang, Heinrich Dinkel, Shuai Wang, Yanmin Qian, Kai Yu (2019). Cross-Domain Replay Spoofing Attack Detection Using Domain Adversarial Training. Interspeech 2019.

Zhanghao Wu, Shuai Wang, Yanmin Qian, Kai Yu (2019). Data Augmentation Using Variational Autoencoder for Embedding Based Speaker Verification. Interspeech 2019.

PDF DOI

Shuai Wang, Johan Rohdin, Lukáš Burget, Oldřich Plchot, Yanmin Qian, Kai Yu (2019). On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. Interspeech 2019.

PDF DOI

Yanmin Qian, Chao Weng, Xuankai Chang, Shuai Wang and Dong Yu (2018). Past review, current progress, and challenges ahead on the cocktail party problem. FITEE 2018.

Zili Huang*, Shuai Wang*, Kai Yu (2018). Angular Softmax for Short-Duration Text-independent Speaker Verification.. Interspeech 2018.

PDF

Shuai Wang, Heinrich Dinkel, Yanmin Qian, Kai Yu (2018). Covariance based deep feature for text-dependent speaker verification. IScIDE 2018.

PDF

Shuai Wang, Zili Huang, Yanmin Qian and Kai Yu (2018). Deep discriminant analysis for i-vector based robust speaker recognition. ISCSLP 2018.

DOI

Yexin Yang, Shuai Wang, Man Sun, Yanmin Qian, Kai Yu (2018). Generative Adversarial Networks based X-vector Augmentation for Robust Probabilistic Linear Discriminant Analysis in Speaker Verification. ISCSLP 2018.

PDF

Shuai Wang, Yanmin Qian, Kai Yu (2018). Focal KL-divergence based dilated convolutional neural networks for co-channel speaker identification. ICASSP 2018.

PDF

Zili Huang, Shuai Wang, Yanmin Qian (2018). Joint i-vector with end-to-end system for short-duration text-independent speaker verification. ICASSP 2018.

PDF DOI

Xiaowei Jiang, Shuai Wang, Xu Xiang, Yanmin Qian (2017). Integrating Online i-vector into GMM-UBM for Text-dependent Speaker Verification. APSIPA 2017.

PDF DOI

Shuai Wang, Yanmin Qian and Kai Yu (2017). What Does the Speaker Embedding Encode?. InterSpeech 2017.

PDF DOI