期刊文章详细信息
文献类型:期刊文章
QU Xiaoyuan;CUI Qing(School of Information Engineering,Yulin University,Yulin 719000,China;School of Art,Yulin University,Yulin 719000,China)
机构地区:[1]榆林学院信息工程学院,陕西榆林719000 [2]榆林学院艺术学院,陕西榆林719000
基 金:陕西省科技厅项目(2019NY-179);榆林市产学研合作项目(2019-93-2,2019-93-3)。
年 份:2022
卷 号:30
期 号:9
起止页码:82-87
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是一种符合人耳听觉特征,并与频率呈非线性对应关系的频谱特征,广泛应用在语音识别、音频特征分析等方面。对于目前广泛使用的通过单一特征进行音频分类的方法,存在分类准确度低、处理速度慢等方面的不足,提出了基于梅尔频率倒谱的音频分类算法,该算法对音频设定采样率,获取音频的时间序列,并根据时间序列提取梅尔频率倒谱系数特征,将获取的二维特征值进行数据拟合、标准化处理。构建多层卷积神经网络模型,将标准化处理后的梅尔频率倒谱系数特征作为网络的输入,通过交叉熵验证的方法,对模型的输出进行分类。通过实验数据可知,梅尔频率倒谱系数特征通过多层卷积网络处理后,分类结果准确率达到92.8%,使用模型进行分类时,速度达到每个样本7 ms的耗时,模型能对音频进行准确快速的分类。
关 键 词:梅尔频率倒谱系数 音乐特征 音频分类 多层卷积神经网络
分 类 号:TN99]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...