金融界2024年3月13日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司取得一项名为“多说话人场景识别及网络训练方法、装置“,授权公告号CN113555032B,申请日期为2020年12月。
专利摘要显示,本申请提供了一种多说话人场景识别及网络训练方法、装置,对语音分离模型和语音分类模型进行联合训练,保证了多说话人场景判断的连续性,使用语音分离模型训练来降低多说话人场景判断延迟。多说话人场景识别网络训练方法包括:获取训练语音样本集中的各个训练样本的对数梅尔能量谱,训练语音样本集包括单人说话语音信号和多人说话语音信号,多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号;根据训练语音样本集对语音分离模型与语音分类模型进行联合训练,其中,在联合训练过程中,使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入,使用语音分离模型输出的频带点系数作为语音分类模型的输入。