全球数字财富领导者

华为云申请唇语识别专利,实现对多人说话视频中的说话人以及对应说话内容的准确识别

2024-01-05 12:58:46
金融界
金融界
关注
0
0
获赞
粉丝
喜欢 0 0收藏举报
— 分享 —
摘要:金融界2024年1月5日消息,据国家知识产权局公告,华为云计算技术有限公司申请一项名为“唇语识别方法和装置、模型的训练方法和装置“,公开号CN117351555A,申请日期为2022年6月。专利摘要显示,本申请实现方式公开了一种唇语识别方法,包括:获取待识别的多人说话视频;将多人说话视频输入至预设的目标唇语识别模型,由目标唇语识别模型提取多人说话视频的每帧图像中各人员的人脸图像,并根据人脸图像,得到每帧图像中各人员作为说话人的可能性信息,以及根据可能性信息,从每帧图像中筛选出目标说话人,并提取目标说话人的唇部图像,根据唇部图像,得到目标说话人的说话内容。如此,可以先识别出多人说话场景中潜在的真正的目标说话人,然后只需要对真正的目标说话人的唇语进行识别,即可以实现对多人说话视频中的说话人以及对应说话内容的准确识别。本申请实现方式还公开了一种唇语识别装置、唇语识别模型的训练方法和装置。

金融界2024年1月5日消息,据国家知识产权局公告,华为云计算技术有限公司申请一项名为“唇语识别方法和装置、模型的训练方法和装置“,公开号CN117351555A,申请日期为2022年6月。

专利摘要显示,本申请实现方式公开了一种唇语识别方法,包括:获取待识别的多人说话视频;将多人说话视频输入至预设的目标唇语识别模型,由目标唇语识别模型提取多人说话视频的每帧图像中各人员的人脸图像,并根据人脸图像,得到每帧图像中各人员作为说话人的可能性信息,以及根据可能性信息,从每帧图像中筛选出目标说话人,并提取目标说话人的唇部图像,根据唇部图像,得到目标说话人的说话内容。如此,可以先识别出多人说话场景中潜在的真正的目标说话人,然后只需要对真正的目标说话人的唇语进行识别,即可以实现对多人说话视频中的说话人以及对应说话内容的准确识别。本申请实现方式还公开了一种唇语识别装置、唇语识别模型的训练方法和装置。

敬告读者:本文为转载发布,不代表本网站赞同其观点和对其真实性负责。FX168财经仅提供信息发布平台,文章或有细微删改。
go