带有顺应器和附加边际惩罚的稳健的端到端演讲者排位法

带有顺应器和附加边际惩罚的稳健的端到端演讲者排位法
2023年4月25日
研究

传统上,一个说话人日记系统有多个组件来提取和聚集说话人的嵌入。然而,端对端日记是更可取的,因为它有利于优化一个模型,而不是传统设置中的多个组件。此外,端到端diarization系统能够处理重叠的语音。最近提出的基于编码器-解码器的自关注端到端diarization模型(EEND-EDA)能够处理来自未知数量扬声器的语音,并报告了与传统系统相当的性能。在这项工作中,我们旨在改进EEND-EDA模型。首先,我们通过加入一个用于最小化类内方差的附加边际惩罚来提高模型的稳健性。第二,我们建议用Conformer编码器取代Transformer编码器,以捕捉局部信息。第三,我们建议使用卷积子采样和上采样,而不是只使用人工子采样。我们提出的改进措施在DIHARD III挑战赛第2赛道的评估全集上报告了21.6%的DER相对减少。

带有顺应器和附加边际惩罚的稳健的端到端演讲者排位法