内容聚合与自然语言理解模块关系的模型验证

IEEE SPL | 基于图注意力机制的音频语意概述

IEEE SPL | 基于图注意力机制的音频语意概述本文由哈工程智能信号处理组与悉尼科技大学、萨里大学合作，发表于IEEE信号处理学会期刊IEEE Signal Processing Letters，论文一作为2020级硕士研究生肖飞扬。该方法针对音频语意概述任务，提出了一种基于图注意力机制的方法（GraphAC），有效提升了音频描述的准确性和流畅性。一、摘要音频语意概述是一项跨模态音频内容理解任务，旨在通过自然语言描述音频信号蕴含信息，使机器具备理解表达音频场景事件语意内容的能力。现有的主流方法采用在AudioSet上获得的大规模音频预训练模型(PANNs)进行音频特征表示，但受限于卷积计算机制，缺乏对音频特征时序上下文关系的建模能力。为此，GraphAC方法通过构建音频节点邻接图，实现音频信号中的时序上下文信息关系建模，并通过top-k掩码机制过滤无关信息，强化与音频场景事件相关的上下文语意关联。实验结果表明，GraphAC在音频语意概述任务上优于现有基于PANNs的主流方法。二、背景音频语意概述（又称自动音频字幕）是通过机器学习方法将音频信号蕴含的场景信息用自然语言进行表述的跨模态音频内容理解任务。该任务有助于听力障碍人群感知理解音频信息，辅助城市安全监控体系的音频内容分析，以及流媒体视频节目内容摘要生成，具备广阔的应用前景。目前，主流方法常采用编码器-解码器结构，其中编码器负责提取音频特征，解码器负责生成描述文本。PANNs因在大规模音频数据集上学习到的音频事件信息表征能力而被广泛用于音频语意概述的编码器设计。三、动机PANNs采用的卷积计算机制主要用于捕捉局部感受野信息，往往忽略音频特征之间的上下文关联和长时序依赖性质。而音频信号作为典型的时变信号，包含了丰富的时序上下文信息，此类信息可以反映声音场景和事件的语意关联。忽略这些信息将影响音频编码器对音频特征的有效建模，从而限制音频语意概述方法的性能。四、方法为解决PANNs音频编码器难以表征时序上下文信息的问题，本文提出了GraphAC方法。该方法在编码器中引入图注意力模块，实现音频节点的图关系建模，挖掘音频上下文关系，增强音频特征帧节点之间的语意关联，提升音频特征表示能力。GraphAC以P-Transformer方法作为原型系统，验证所提图注意策略的有效性。所提方法以P-Transformer为骨干网络，在其音频编码器中的PANNs之后引入图注意力模块，实现音频时序上下文关系建模及语意信息关联；解码器部分沿用P-Transformer解码器结构设计，通过Transformer解码器结构实现音频特征表示的自然语言文本表述。所提出的图注意力音频特征表示策略，不仅通过构建邻接图捕获音频信号中的时序上下文信息，还采用top-k掩码机制减轻噪声节点干扰。图注意力机制在节点特征聚合过程中，根据邻接图反映的时序上下文信息，强化音频特征表示中有关声音场景事件的重要语意信息。方法模型结构图如下：五、实验1. 对比实验本文使用Clotho数据集进行音频语意概述方法的性能评估。实验采用BLEU、ROUGEl、METEOR等词汇精度评价指标，以及CIDEr、SPICE和SPIDEr等语意评价指标，对所提方法进行性能评价。实验结果表明，GraphAC方法的音频语意概述性能优于当前使用PANNs作为编码器的主流方法。2. 消融实验P-Transformer方法可视作GraphAC方法不使用图注意力机制的退化版本。本文对比了在编码器结构中使用图注意力机制的方法（GraphAC）和不使用图注意力机制的方法（P-Transformer），以验证图注意力机制进行音频特征建模的有效性。实验结果表明，借助图注意力机制捕获音频特征的时序上下文信息，可以获得优于仅采用PANNs作为音频编码器方法的音频语意概述性能。为进一步验证GraphAC方法在音频特征时序上下文建模中的有效性，本文还进行了可视化分析。可视化分析中，每一列分别对应一个输入音频样例，左侧一列对应的音频样例为“01 barreau bunker original.wav”，其参考概述文本为“five different sounding bells are ringing between short pauses”，右侧一列对应的音频样例为“01 A pug struggles to breathe 1_14_2008.wav”，其参考概述文本为“a small dog snoring and groaning”。下图中，(a)和(b)表示音频信号的频谱图特征；(c)和(d)表示GraphAC方法构建的音频特征帧之间邻接图关系；(e)和(f)表示GraphAC方法不使用top-k掩码机制时构建的音频特征帧之间邻接图关系。对比可视化分析图中的(a)和(c)、(b)和(d)，可以发现GraphAC方法构建的邻接图关系中的高亮部分（重要性高的音频帧）与音频信号的频谱图特征中的音频场景事件基本对应，这表明GraphAC方法能够有效捕获音频特征中与场景事件信息相关的重要语意信息。由此可以说明，GraphAC方法可以建立音频特征帧节点上下文关系，并强化音频场景内容信息和语意关联。为验证GraphAC方法中top-k掩码机制的作用，本文在消融实验中还与未使用top-k掩码机制的GraphAC w/o top-k方法进行对比分析。量化评价指标表现表明，GraphAC方法的语意评价指标性能表现要优于GraphAC w/o top-k方法，使用top-k掩码机制能够提升音频语意概述方法的语意概述性能。而对比图2可视化分析中的(c)和(e)、(d)和(f)，可以发现不使用top-k掩码机制时，所提方法构建的邻接图关系会存在无意义的关联信息干扰与上下文关系失真的问题，这表明top-k掩码机制能够一定程度上过滤与场景内容无关的音频信息，提升音频语意概述的表现。六、结论本文针对基于PANNs音频编码器难以发掘音频特征时序上下文信息的不足，从音频特征帧节点的时序上下文关系出发，通过图注意力机制构建了音频特征帧之间的邻接图结构，并应用top-k掩码机制过滤了与场景内容无关的音频信息，进而捕获了音频特征的时序上下文关系，并强化了音频场景上下文语意关联。实验结果表明，所提的GraphAC方法能够取得优于基于PANNs音频编码器的现有主流方法的音频语意概述性能表现。

nginx