一种基于多源特征的语音情绪识别方法及应用
刘海;张昭理;欧景斌;杨雪雪;邸昂;刘新;邢师珍;刘婷婷;李友福
华中师范大学
摘要:本申请公开了一种基于多源特征的语音情绪识别方法,包括:采集开源语音识别数据集和环境声音识别数据集,分别训练得到语音识别网络模型和环境声音识别网络模型,采集开源情绪语音数据集进行音频增强;对增强情绪语音音频提取MFCC特征,并输入膨胀因果交互子网络得到高阶MFCC特征;将增强情绪语音音频输入语音识别网络模型和环境声音识别网络模型得到高阶文本特征和高阶环境特征,再与高阶MFCC特征融合后输入时序分解因果卷积块生成高阶时序因果复合特征,通过全连接层输出至分类网络层识别语音情绪。其可以解决传统语音情绪识别技术仅基于语音的声学特征、依赖标准干净的语音信号导致语音情绪识别准确率较低,无法在复杂环境下准确识别语音情绪的问题。
更多内容见中国知网