情感测试简介

首页 » 常识 » 诊断 » 2019年声纹识别研究与应用学术讨论会
TUhjnbcbe - 2025/2/21 21:29:00

雷锋网AI科技评论按,近日,「年声纹识别研究与应用学术讨论会」在昆山杜克大学学术楼一楼报告厅举办。本次会议由中国计算机学会和昆山杜克大学联合举办,由昆山市科学技术协会提供支持,协办方包括昆山杜克大学大数据研究中心、清华大学媒体大数据认知计算研究中心和中国计算机学会语音对话与听觉专业工作组。大会主席由昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明和清华大学媒体大数据认知计算研究中心副研究员何亮共同担任。

上午9:00,昆山杜克大学学术事物副校长,美国杜克大学讲席教授高海燕参加了开幕式并进行了开场致辞。

随后,中国计算机学会语音对话及听觉专业组副主任,上海交通大学计算机科学与工程系教授俞凯老师进行了致辞,他给大家介绍了本次会议的基本情况,感谢各位参会嘉宾的支持,呼吁语音界团结合作,举办更多的高水平学术活动。

本次会议分为四个环节,第一个环节是关于深度学习的讨论,第二个环节是对抗学习、说话人日志相关技术的讨论,第三个环节的主题是说话人编码,第四个环节的讨论内容是联合学习。

第一个环节:深度学习

首先上台报告的是本次会议主席之一,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明,他的分享主题是「基于端到端深度学习的说话人和语种识别」。

他表示,语音作为语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人语种,性别,年龄,情感,信道,嗓音,病理,生理,心理等多种丰富的副语言语音属性信息。以上这些语言语音属性识别问题从整体来看,其核心都是针对不定时长文本无关的句子层面语音信号的有监督学习问题,只是要识别的属性标注有不同。

李明介绍了其团队近期在ICASSP,INTERSEECH等语音领域重要国际会议上发表的工作:(1)提出基于字典池化的编码层代替原有的平均池化层,效果显著;(2)提出一种结合注意力机制的CNN-BLSTM网络框架,能有效地结合CNN和BLSTM各自的优势,达到更好的系统性能;(3)引入Centerloss和AngularSoftmax以学习得到更具鉴别性的说话人特征,后端仅仅使用余弦相似度打分即可得到较好的说话人验证性能;(4)提出在网络学习阶段便引入长度归一化机制,后端仅仅使用简单的内积即可得到较好的说话人验证性能。

最后,李明总结说,近年来,声纹识别的研究趋势正在快速朝着深度学习和端到端方向发展,其中最典型的就是基于句子层面的做法。他认为,在网络结构设计,数据增强,损失函数设计等方面还有很多工作去做,还有很大的提升空间。

第二个演讲嘉宾是中国科学院声学研究所研究员、博士生导师,中国科学院大学岗位教授,英国谢菲尔德大学公派访问学者张鹏远,他讨论的内容是「基于深度学习的短时声纹识别技术」。

他认为,在实际应用中,由于对基于语音的访问控制需求的不断增长,提升声纹识别系统在短时语音情况下的性能变得尤为迫切。短时语音中说话人信息不足以及注册和测试语音的文本内容不匹配,对于主流的基于统计建模的声纹识别系统是一个严峻的挑战。

为了从短时语音中精确提取表征说话人个性信息的说话人特征向量,他们团队提出了一种双路神经网络,从多个时间尺度来对说话人信息进行建模,并融合不同时间尺度的特征来进行建模尺度的互补,显著提升了短时语音条件下的系统性能。

团队进一步针对说话人低维向量如i-vector,embedding等进行了后端建模的研究,提出了基于区分性学习方法的神经网络来最大化说话人的类间方差,同时最小化类内方差,网络将说话人的低维向量映射到更具说话人区分性的空间,从而使最终得到的低维向量能更好的进行说话人判决。

上午的第三个演讲嘉宾是中国科学技术大学语音及语言信息处理国家工程实验室副教授宋彦。宋彦老师长期从事人工智能和语音信号智能处理研究,他的演讲题目是「基于深度学习的说话人识别方法」。

他说,目前采用的深度说话人识别方法首先利用神经网络提取前端的帧级特征,然后通过池化映射获得可以表示说话人特性的段级向量,最后采用LDA/PLDA等后端建模方法进行度量计算。相对于传统的i-vector生成过程,基于深度学习的说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的有效表示上。如何进一步改进现有的深度说话人学习方法是现阶段的一个研究热点。

对于这一问题,他介绍了三种方法:结合密集空洞卷积和注意力机制的帧级特征提取方法、基于跨层双线性池化操作的段级特征映射方法和基于深度判别分析优化目标实现的端到端的说话人识别方法。

第二个环节:对抗学习、说话人日志

首先上台的是西北工业大学计算机学院教授、博士生导师谢磊。他和大家分享了「深度对抗学习在说话人识别中的应用」有关的内容。

他提及,对抗学习在计算机视觉领域应用非常广泛,在语音领域也用到的很多,近两年来,和语音相关对抗学习研究的文章数量明显增长。

生成式对抗网络(GAN)的主要目的是用在数据生成、降噪、等很多场景里面。它还被用在领域自适应里面,形成一个新的分布。第三个广泛的应用是生成对抗样本,这会对分类系统产生大的困扰。很多研究者用对抗样本攻击机器学习的系统,在原始数据上增加一些扰动,生成样本,经过神经网络之后就有可能识别成完全不同的结果。这个思想在图像处理领域非常活跃,会造成错误识别,引起了自动驾驶,安全等领域的研究人员的广泛

1
查看完整版本: 2019年声纹识别研究与应用学术讨论会